R-修復使用anti_join刪除停用詞時的排序（創建ngram）

Question

對於R和編碼而言，這是非常新的東西，它試圖對一長串句子及其給定的權重進行頻率分析。 我沒有嵌套數據並對其進行了突變，但是當我嘗試刪除停用詞時，每個句子中單詞的排序順序都會隨機化。 稍后我需要創建雙字母組，並且希望它們基於原始短語。

以下是相關代碼，如果不足，可以提供更多信息：

library(dplyr)
library(tidytext)

data = data%>%
  anti_join(stop_words)%>%
  filter(!is.na(word))

如何保留每個句子中的原始排序順序？ 我將句子中的所有單詞都編入索引，以便將它們匹配到給定的權重。 有沒有更好的方法來刪除不會弄亂排序順序的停用詞？

在這里看到了類似的問題，但尚未解決：如何阻止anti_join反轉R中的排序順序？

也嘗試過此方法，但是沒有用： dplyr如何在已排序的組中對組進行排序？

在寫這篇文章時得到了同事的幫助，但是很遺憾，他們不再可用，因此任何見解都會有所幫助。 謝謝！

Answer 1

您可以在排序之前將排序索引添加到數據中

library(dplyr)
library(tidytext)

data = data %>%
  dplyr::mutate(idx = 1:n()) %>%
  dplyr::anti_join(stop_words) %>%
  dplyr::filter(!is.na(word)) %>%
  dplyr::arrange(idx)

（ dplyr::不是必需的，但可以幫助您記住函數的來源）

R-修復使用anti_join刪除停用詞時的排序（創建ngram）

問題描述

1 個解決方案

解決方案1
0 2017-08-15 14:40:07

R-修復使用anti_join刪除停用詞時的排序（創建ngram）

問題描述

1 個解決方案

解決方案1 0 2017-08-15 14:40:07

解決方案1
0 2017-08-15 14:40:07