繁体   English   中英

计算 Documenttermmatrix 中的标记数

[英]Count the number of tokens in a Documenttermmatrix

我对 Documenttermmatrix 有疑问。 我想在 R 中使用“LDAVIS”package。为了可视化 LDA 算法的结果,我需要计算每个文档的标记数。 我没有所考虑的 DTM 的文本语料库。 有谁知道我如何计算每个文档的令牌数量。 output 作为包含文档名称和他的令牌数量的列表将是完美的解决方案。

亲切的问候,汤姆

您可以使用slam::row_sums 这会计算文档术语矩阵的 row_sums,而无需先将 dtm 转换为矩阵。 这个function来自安装tm package时安装的slam package。

count_tokens <- slam::row_sums(dtm_goes_here)

# if you want a list
count_tokens_list <- as.list(slam::row_sums(dtm_goes_here))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM