[英]Count the number of tokens in a Documenttermmatrix
我對 Documenttermmatrix 有疑問。 我想在 R 中使用“LDAVIS”package。為了可視化 LDA 算法的結果,我需要計算每個文檔的標記數。 我沒有所考慮的 DTM 的文本語料庫。 有誰知道我如何計算每個文檔的令牌數量。 output 作為包含文檔名稱和他的令牌數量的列表將是完美的解決方案。
親切的問候,湯姆
您可以使用slam::row_sums
。 這會計算文檔術語矩陣的 row_sums,而無需先將 dtm 轉換為矩陣。 這個function來自安裝tm package時安裝的slam package。
count_tokens <- slam::row_sums(dtm_goes_here)
# if you want a list
count_tokens_list <- as.list(slam::row_sums(dtm_goes_here))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.