[英]Topic Modelling in R
我正在根據公眾評論數據創建一個相關的主題模型,並得到了一個相當奇怪的錯誤。
當我在CTM上調用term(ctm1,5)時,我獲取的是文檔名稱,而不是每個主題的前5個術語。
更詳細地說,
library(topicmodels)
library(data.table)
library(tm)
a <-Corpus(DirSource("~/text", encoding="UTF-8"), readerControl =
list(language="lat"))
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english"))
a <- tm_map(a, stemDocument, language = "english")
adtm <-TermDocumentMatrix(a)
adtm <- removeSparseTerms(adtm, 0.75)
ctm1 <- CTM(adtm, 30, method = "VEM", control = NULL, model = NULL)
terms(ctm1, 5)
哪個回來了
terms(ctm1)
Topic 1 "cmnt656661.txt"
(等等。)
我們不確定,因為您沒有提供數據。 但是您可能沒有正確導入文件。 請參閱?DirSource
(我的重點):
目錄 : 完整路徑名的字符向量; 默認值對應於工作目錄getwd()。
在您的情況下,似乎應該執行以下操作:
a <- Corpus(DirSource(list.files("~/text", full.names = TRUE)))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.