繁体   English   中英

R-情绪分析-如何删除某些单词

[英]R - Sentiment Analysis - How to remove certain words

我有下面的代码为我的Twitter情绪分析创建简洁的文本。 我想添加另一行以删除某些我不想包含在此分析中的单词,例如“废话”,“病假”等。有人可以建议这样做吗?

tweets <- searchTwitter("iPhone", n=1500, lang="en")
txt <- sapply(tweets, function(x) x$getText())
txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt)
txt <- gsub("@\\w+", "", txt)
txt <- gsub("[[:punct:]]", "", txt)
txt <- gsub("[[:digit:]]", "", txt)
txt <- gsub("http\\w+", "", txt)
txt <- gsub("[ \t]{2,}", "", txt)
txt <- gsub("^\\s+|\\s+$", "", txt)

使用R中最新的“ tm”包,您可以删除单词。

library(tm)
myCorpOld <- Corpus(VectorSource(YourFirstDFonTweet$text)

请注意有关语料库的制作,“ YourFirstDFonTweet”是您可能已从下载的tweet创建的数据框。

#remove "crap" and "sick" from 
txt <- setdiff(say_txt, c("crap", "sick"))

#remove these form corpus
myCorpUpdate <- tm_map(myCorpOld, txt)

我希望这能使您知道如何解决您的问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM