簡體   English   中英

R-修復使用anti_join刪除停用詞時的排序(創建ngram)

[英]R - fix sorting when using anti_join to remove stop words (creating ngrams)

對於R和編碼而言,這是非常新的東西,它試圖對一長串句子及其給定的權重進行頻率分析。 我沒有嵌套數據並對其進行了突變,但是當我嘗試刪除停用詞時,每個句子中單詞的排序順序都會隨機化。 稍后我需要創建雙字母組,並且希望它們基於原始短語。

以下是相關代碼,如果不足,可以提供更多信息:

library(dplyr)
library(tidytext)

data = data%>%
  anti_join(stop_words)%>%
  filter(!is.na(word))

如何保留每個句子中的原始排序順序? 我將句子中的所有單詞都編入索引,以便將它們匹配到給定的權重。 有沒有更好的方法來刪除不會弄亂排序順序的停用詞?

在這里看到了類似的問題,但尚未解決: 如何阻止anti_join反轉R中的排序順序?

也嘗試過此方法,但是沒有用: dplyr如何在已排序的組中對組進行排序?

在寫這篇文章時得到了同事的幫助,但是很遺憾,他們不再可用,因此任何見解都會有所幫助。 謝謝!

您可以在排序之前將排序索引添加到數據中

library(dplyr)
library(tidytext)

data = data %>%
  dplyr::mutate(idx = 1:n()) %>%
  dplyr::anti_join(stop_words) %>%
  dplyr::filter(!is.na(word)) %>%
  dplyr::arrange(idx)

dplyr::不是必需的,但可以幫助您記住函數的來源)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM