[英]Count the number of tokens in a Documenttermmatrix
我对 Documenttermmatrix 有疑问。 我想在 R 中使用“LDAVIS”package。为了可视化 LDA 算法的结果,我需要计算每个文档的标记数。 我没有所考虑的 DTM 的文本语料库。 有谁知道我如何计算每个文档的令牌数量。 output 作为包含文档名称和他的令牌数量的列表将是完美的解决方案。
亲切的问候,汤姆
您可以使用slam::row_sums
。 这会计算文档术语矩阵的 row_sums,而无需先将 dtm 转换为矩阵。 这个function来自安装tm package时安装的slam package。
count_tokens <- slam::row_sums(dtm_goes_here)
# if you want a list
count_tokens_list <- as.list(slam::row_sums(dtm_goes_here))
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.