tm_map删除包含我的停用词的单词？

Question

我正在应用removeWords来过滤这样的语料库：

corpus <- Corpus(vs, readerControl = list(language="en")) 
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, stripWhitespace) 
corpus <- tm_map(corpus, removeWords, c(stopwords("english"))) 
corpus <- tm_map(corpus, removeWords, bannedWords$V1)

但是，这仅是完全匹配的工作，因此：

f * ck被删除
f * cking未删除

如何删除包含停用词的词？

Answer 1

您可以使用词干将被禁词恢复为基本形式。 请参阅下面的示例。

library(tm)

banned <- c("buck")
text <- c("He is bucking the trend", "A buck is not worth a dollar anymore!")

corpus <- Corpus(VectorSource(text), readerControl = list(language="en")) 
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, stripWhitespace) 
corpus <- tm_map(corpus, stemDocument)
corpus <- tm_map(corpus, removeWords, c(stopwords("english"), banned)) 

writeLines(as.character(corpus[[1]]))
  trend

如果您不阻止文档，您将获得：

corpus <- Corpus(VectorSource(text), readerControl = list(language="en")) 
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, stripWhitespace) 
corpus <- tm_map(corpus, removeWords, c(stopwords("english"), banned)) 

writeLines(as.character(corpus[[1]]))
  bucking  trend

Answer 2

我通过查看tm库源代码中的removeWords函数并从以下项扩展正则表达式找到了答案：

gsub(sprintf("(*UCP)\\b(%s)\\b",

至

gsub(sprintf("(*UCP)\\b[a-zA-Z]*(%s)[a-zA-Z]*\\b",

完整的功能

removeWordsContaining <-
function(x, words)
    UseMethod("removeWordsContaining", x)
removeWordsContaining.character <-
function(x, words)
    gsub(sprintf("(*UCP)\\b[a-zA-Z]*(%s)[a-zA-Z]*\\b",
                 paste(sort(words, decreasing = TRUE), collapse = "|")),
         "", x, perl = TRUE)
removeWordsContaining.PlainTextDocument <-
    content_transformer(removeWordsContaining.character)

blog_corpus <- Corpus(vs, readerControl = list(language="en")) 
blog_corpus <- tm_map(blog_corpus, content_transformer(tolower))
blog_corpus <- tm_map(blog_corpus, stripWhitespace) 
blog_corpus <- tm_map(blog_corpus, removePunctuation) 
blog_corpus <- tm_map(blog_corpus, removeNumbers) 
blog_corpus <- tm_map(blog_corpus, removeWords, c(stopwords("english"))) 
blog_corpus <- tm_map(blog_corpus, removeWordsContaining, bannedWords$V1)

tm_map删除包含我的停用词的单词？

问题描述

2 个解决方案

解决方案1
2 2016-11-05 13:31:49

解决方案2
0 已采纳 2016-11-05 08:10:54

tm_map删除包含我的停用词的单词？

问题描述

2 个解决方案

解决方案1 2 2016-11-05 13:31:49

解决方案2 0 已采纳 2016-11-05 08:10:54

解决方案1
2 2016-11-05 13:31:49

解决方案2
0 已采纳 2016-11-05 08:10:54