如何在 R 中對 textstem 的詞典進行大量添加？

Question

我有大量的自由文本調查評論，我正試圖對其進行分析。 我使用 textstem 包來執行詞形還原，但在查看了它確定的唯一標記后，我想進行進一步的調整。 例如，它將“abuses”、“abused”和“abusing”標識為引理“abuse”，但未觸及“abusive”……我也想將其更改為“abuse”。

我發現這篇文章描述了如何在零碎的基礎上添加到詞典中，例如

lemmas <- lexicon::hash_lemmas[token=="abusive",lemma:="abuse"]
lemmatize_strings(words, dictionary = lemmas)

但就我而言，我將有一個包含數百個標記/引理對的數據框。 如何快速將它們全部添加到 lexicon::hash_lemmas？

Answer 1

呃……

new_lemmas <- read_csv("newLemmas.csv")
big_lemmas <- rbind(lexicon::hash_lemmas, new_lemmas)
big_lemmas <- big_lemmas[!duplicated(big_lemmas$token)]

然后使用big_lemmas作為字典

如何在 R 中對 textstem 的詞典進行大量添加？

問題描述

1 個解決方案

解決方案1
0 2020-01-07 21:56:04

如何在 R 中對 textstem 的詞典進行大量添加？

問題描述

1 個解決方案

解決方案1 0 2020-01-07 21:56:04

解決方案1
0 2020-01-07 21:56:04