繁体   English   中英

Spark MLLIB LDA topicsmatrix的输出是什么?

[英]What is the output of Spark MLLIB LDA topicsmatrix?

LDAModel.topicsMatrix()的输出对我来说不清楚。 我想我理解LDA的概念,每个主题都用术语分布来表示。

LDAModel.describeTopics()很明显(我认为):每个主题的句子单词的可能性的最高总和,表示该推文属于某个主题的证据。 对于n个主题, describeTopics()的输出是m矩阵的时间,其中m代表词汇表的大小。 此矩阵中的值小于或等于1。

但是在LDAModel.topicsMatrix() ,我不知道我在看什么。 阅读文档时也是如此。 矩阵是n倍矩阵,维度已经改变,并且该矩阵中的值大于零(因此可以取值2,这不是概率值)。 这些价值观是什么? 或许在话题中出现这个词?

如何使用这些值来计算句子到主题的距离?

我认为矩阵是m * nm是单词数字,n是主题数字

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM