tm_map和stopwords无法从R中创建的语料库中删除不需要的单词

Question

我有一个结果数据框，其中包含以下数据：

                   word freq
credit           credit  790
account         account  451
xxxxxxxx       xxxxxxxx  430
report           report  405
information information  368
reporting     reporting  345
consumer       consumer  331
accounts       accounts  300
debt               debt  170
company         company  152
xxxxxx         xxxxxx    147

我想做以下事情：

删除所有具有两个以上x的wods，例如xx，xxx，xxx等，因为这些单词可以是大写或大写，所以必须先将小写字母移入然后删除

我使用tm_map来删除停用词，但似乎它没有用，我仍然在数据帧中得到了不需要的单词，如上所述。

myCorpus <- Corpus(VectorSource(df$txt))
myStopwords <- c(stopwords('english'),"xxx", "xxxx", "xxxxx", 
                 "XXX", "XXXX", "XXXXX", "xxxx", "xxx", "xx", "xxxxxxxx",
                 "xxxxxxxx", "XXXXXX", "xxxxxx", "XXXXXXX", "xxxxxxx", "XXXXXXXX", "xxxxxxxx")
myCorpus <- tm_map(myCorpus, tolower)
myCorpus<- tm_map(myCorpus,removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)

myTdm <- as.matrix(TermDocumentMatrix(myCorpus))
v <- sort(rowSums(myTdm), decreasing=TRUE)
FreqMat <- data.frame(word = names(v), freq=v, row.names = F)
head(FreqMat, 10)

上面的代码对我来说不适用于从语料库中删除不需要的单词。

还有其他办法可以解决这个问题吗？

Answer 1

涉及dplyr和stringr一种可能性是：

df %>%
 mutate(word = tolower(word)) %>%
 filter(str_count(word, fixed("x")) <= 1)

         word freq
1      credit  790
2     account  451
3      report  405
4 information  368
5   reporting  345
6    consumer  331
7    accounts  300
8        debt  170
9     company  152

或者使用类似逻辑的base R可能性：

df[sapply(df[, 1], 
          function(x) length(grepRaw("x", tolower(x), all = TRUE, fixed = TRUE)) <= 1, 
          USE.NAMES = FALSE), ]

tm_map和stopwords无法从R中创建的语料库中删除不需要的单词

问题描述

1 个解决方案

解决方案1
3 已采纳 2019-08-26 11:09:08

tm_map和stopwords无法从R中创建的语料库中删除不需要的单词

问题描述

1 个解决方案

解决方案1 3 已采纳 2019-08-26 11:09:08

解决方案1
3 已采纳 2019-08-26 11:09:08