[英]How can I make my barchart from a large data set more clear and concise in R?
[英]How can I make large additions to textstem's lexicon in R?
我有大量的自由文本調查評論,我正試圖對其進行分析。 我使用 textstem 包來執行詞形還原,但在查看了它確定的唯一標記后,我想進行進一步的調整。 例如,它將“abuses”、“abused”和“abusing”標識為引理“abuse”,但未觸及“abusive”……我也想將其更改為“abuse”。
我發現這篇文章描述了如何在零碎的基礎上添加到詞典中,例如
lemmas <- lexicon::hash_lemmas[token=="abusive",lemma:="abuse"]
lemmatize_strings(words, dictionary = lemmas)
但就我而言,我將有一個包含數百個標記/引理對的數據框。 如何快速將它們全部添加到 lexicon::hash_lemmas?
呃……
new_lemmas <- read_csv("newLemmas.csv")
big_lemmas <- rbind(lexicon::hash_lemmas, new_lemmas)
big_lemmas <- big_lemmas[!duplicated(big_lemmas$token)]
然后使用big_lemmas
作為字典
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.