[英]Topic Modelling in R
我正在根据公众评论数据创建一个相关的主题模型,并得到了一个相当奇怪的错误。
当我在CTM上调用term(ctm1,5)时,我获取的是文档名称,而不是每个主题的前5个术语。
更详细地说,
library(topicmodels)
library(data.table)
library(tm)
a <-Corpus(DirSource("~/text", encoding="UTF-8"), readerControl =
list(language="lat"))
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english"))
a <- tm_map(a, stemDocument, language = "english")
adtm <-TermDocumentMatrix(a)
adtm <- removeSparseTerms(adtm, 0.75)
ctm1 <- CTM(adtm, 30, method = "VEM", control = NULL, model = NULL)
terms(ctm1, 5)
哪个回来了
terms(ctm1)
Topic 1 "cmnt656661.txt"
(等等。)
我们不确定,因为您没有提供数据。 但是您可能没有正确导入文件。 请参阅?DirSource
(我的重点):
目录 : 完整路径名的字符向量; 默认值对应于工作目录getwd()。
在您的情况下,似乎应该执行以下操作:
a <- Corpus(DirSource(list.files("~/text", full.names = TRUE)))
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.