R-情绪分析-如何删除某些单词

Question

我有下面的代码为我的Twitter情绪分析创建简洁的文本。 我想添加另一行以删除某些我不想包含在此分析中的单词，例如“废话”，“病假”等。有人可以建议这样做吗？

tweets <- searchTwitter("iPhone", n=1500, lang="en")
txt <- sapply(tweets, function(x) x$getText())
txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt)
txt <- gsub("@\\w+", "", txt)
txt <- gsub("[[:punct:]]", "", txt)
txt <- gsub("[[:digit:]]", "", txt)
txt <- gsub("http\\w+", "", txt)
txt <- gsub("[ \t]{2,}", "", txt)
txt <- gsub("^\\s+|\\s+$", "", txt)

Answer 1

使用R中最新的“ tm”包，您可以删除单词。

library(tm)
myCorpOld <- Corpus(VectorSource(YourFirstDFonTweet$text)

请注意有关语料库的制作，“ YourFirstDFonTweet”是您可能已从下载的tweet创建的数据框。

#remove "crap" and "sick" from 
txt <- setdiff(say_txt, c("crap", "sick"))

#remove these form corpus
myCorpUpdate <- tm_map(myCorpOld, txt)

我希望这能使您知道如何解决您的问题。

R-情绪分析-如何删除某些单词

问题描述

1 个解决方案

解决方案1
0 2016-04-09 06:14:00

R-情绪分析-如何删除某些单词

问题描述

1 个解决方案

解决方案1 0 2016-04-09 06:14:00

解决方案1
0 2016-04-09 06:14:00