R中的主題建模

Question

我正在根據公眾評論數據創建一個相關的主題模型，並得到了一個相當奇怪的錯誤。

當我在CTM上調用term（ctm1，5）時，我獲取的是文檔名稱，而不是每個主題的前5個術語。

更詳細地說，

library(topicmodels)
library(data.table)
library(tm)

a  <-Corpus(DirSource("~/text", encoding="UTF-8"), readerControl = 
list(language="lat")) 
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english")) 
a <- tm_map(a, stemDocument, language = "english")
adtm <-TermDocumentMatrix(a) 
adtm <- removeSparseTerms(adtm, 0.75)

ctm1 <- CTM(adtm, 30, method = "VEM", control = NULL, model = NULL)
terms(ctm1, 5)

哪個回來了

terms(ctm1)
          Topic 1  "cmnt656661.txt"

（等等。）

Answer 1

我們不確定，因為您沒有提供數據。 但是您可能沒有正確導入文件。 請參閱?DirSource （我的重點）：

目錄： 完整路徑名的字符向量; 默認值對應於工作目錄getwd（）。

在您的情況下，似乎應該執行以下操作：

a <- Corpus(DirSource(list.files("~/text", full.names = TRUE)))

R中的主題建模

問題描述

1 個解決方案

解決方案1
1 已采納 2017-05-09 12:39:08

R中的主題建模

問題描述

1 個解決方案

解決方案1 1 已采納 2017-05-09 12:39:08

解決方案1
1 已采納 2017-05-09 12:39:08