簡體   English   中英

計算 Documenttermmatrix 中的標記數

[英]Count the number of tokens in a Documenttermmatrix

我對 Documenttermmatrix 有疑問。 我想在 R 中使用“LDAVIS”package。為了可視化 LDA 算法的結果,我需要計算每個文檔的標記數。 我沒有所考慮的 DTM 的文本語料庫。 有誰知道我如何計算每個文檔的令牌數量。 output 作為包含文檔名稱和他的令牌數量的列表將是完美的解決方案。

親切的問候,湯姆

您可以使用slam::row_sums 這會計算文檔術語矩陣的 row_sums,而無需先將 dtm 轉換為矩陣。 這個function來自安裝tm package時安裝的slam package。

count_tokens <- slam::row_sums(dtm_goes_here)

# if you want a list
count_tokens_list <- as.list(slam::row_sums(dtm_goes_here))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM