簡體   English   中英

如何在 R 中對 textstem 的詞典進行大量添加?

[英]How can I make large additions to textstem's lexicon in R?

我有大量的自由文本調查評論,我正試圖對其進行分析。 我使用 textstem 包來執行詞形還原,但在查看了它確定的唯一標記后,我想進行進一步的調整。 例如,它將“abuses”、“abused”和“abusing”標識為引理“abuse”,但未觸及“abusive”……我也想將其更改為“abuse”。

我發現這篇文章描述了如何在零碎的基礎上添加到詞典中,例如

lemmas <- lexicon::hash_lemmas[token=="abusive",lemma:="abuse"]
lemmatize_strings(words, dictionary = lemmas)

但就我而言,我將有一個包含數百個標記/引理對的數據框。 如何快速將它們全部添加到 lexicon::hash_lemmas?

呃……

new_lemmas <- read_csv("newLemmas.csv")
big_lemmas <- rbind(lexicon::hash_lemmas, new_lemmas)
big_lemmas <- big_lemmas[!duplicated(big_lemmas$token)]

然后使用big_lemmas作為字典

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM