R中的主题建模

Question

我正在根据公众评论数据创建一个相关的主题模型，并得到了一个相当奇怪的错误。

当我在CTM上调用term（ctm1，5）时，我获取的是文档名称，而不是每个主题的前5个术语。

更详细地说，

library(topicmodels)
library(data.table)
library(tm)

a  <-Corpus(DirSource("~/text", encoding="UTF-8"), readerControl = 
list(language="lat")) 
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english")) 
a <- tm_map(a, stemDocument, language = "english")
adtm <-TermDocumentMatrix(a) 
adtm <- removeSparseTerms(adtm, 0.75)

ctm1 <- CTM(adtm, 30, method = "VEM", control = NULL, model = NULL)
terms(ctm1, 5)

哪个回来了

terms(ctm1)
          Topic 1  "cmnt656661.txt"

（等等。）

Answer 1

我们不确定，因为您没有提供数据。 但是您可能没有正确导入文件。 请参阅?DirSource （我的重点）：

目录： 完整路径名的字符向量; 默认值对应于工作目录getwd（）。

在您的情况下，似乎应该执行以下操作：

a <- Corpus(DirSource(list.files("~/text", full.names = TRUE)))

R中的主题建模

问题描述

1 个解决方案

解决方案1
1 已采纳 2017-05-09 12:39:08

R中的主题建模

问题描述

1 个解决方案

解决方案1 1 已采纳 2017-05-09 12:39:08

解决方案1
1 已采纳 2017-05-09 12:39:08