![](/img/trans.png)
[英]anti_join is not recognizing tidytext stop words in my dataset
[英]R - fix sorting when using anti_join to remove stop words (creating ngrams)
對於R和編碼而言,這是非常新的東西,它試圖對一長串句子及其給定的權重進行頻率分析。 我沒有嵌套數據並對其進行了突變,但是當我嘗試刪除停用詞時,每個句子中單詞的排序順序都會隨機化。 稍后我需要創建雙字母組,並且希望它們基於原始短語。
以下是相關代碼,如果不足,可以提供更多信息:
library(dplyr)
library(tidytext)
data = data%>%
anti_join(stop_words)%>%
filter(!is.na(word))
如何保留每個句子中的原始排序順序? 我將句子中的所有單詞都編入索引,以便將它們匹配到給定的權重。 有沒有更好的方法來刪除不會弄亂排序順序的停用詞?
在這里看到了類似的問題,但尚未解決: 如何阻止anti_join反轉R中的排序順序?
也嘗試過此方法,但是沒有用: dplyr如何在已排序的組中對組進行排序?
在寫這篇文章時得到了同事的幫助,但是很遺憾,他們不再可用,因此任何見解都會有所幫助。 謝謝!
您可以在排序之前將排序索引添加到數據中
library(dplyr)
library(tidytext)
data = data %>%
dplyr::mutate(idx = 1:n()) %>%
dplyr::anti_join(stop_words) %>%
dplyr::filter(!is.na(word)) %>%
dplyr::arrange(idx)
( dplyr::
不是必需的,但可以幫助您記住函數的來源)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.