繁体   English   中英

在R中使用tm包创建TermDocumentMatrix时出错

[英]Error in creating TermDocumentMatrix using tm package in R

我无法使用R中的tm包创建术语文档矩阵,当我尝试从预处理语料库中创建一个时,将引发以下错误。

Error in UseMethod("TermDocumentMatrix", x) : 
  no applicable method for 'TermDocumentMatrix' applied to an object of class 
"character"

以下是我正在使用的脚本。 我正在将R v3.4.1与tm软件包v0.7-1一起使用。

data <- readLines("Data/en_US/en_US_sample.txt", n = 100)
data <- Corpus(VectorSource(data))
data <- tm_map(data, removePunctuation)
data <- tm_map(data, removeNumbers)
data <- tm_map(data, content_transformer(tolower))
data <- tm_map(data, removeWords, stopwords("en"))
data <- tm_map(data, stripWhitespace)
words <- TermDocumentMatrix("data")

我相信TermDocumentMatrix要求语料库采用某种指定的文本文档格式,因此我尝试使用tm_map将语料库强制为PlainTextDocument,但不能解决问题。 当我在VectorSource上使用Corpus加载文本数据时,创建的对象将类显示为SimpleCorpus ,这可能是问题所在,但我不确定。

任何帮助将非常感激。 谢谢!

您做对了所有事情,只是在最后一行中,您不小心将字符"data" (请注意引号)传递给了TermDocumentMatrix()函数,而不是对象data

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM