繁体   English   中英

从 Gensim LDA 或 pyLDAvis 中提取词显着性

[英]Extract Word Saliency from Gensim LDA or pyLDAvis

我看到 pyLDAvis 可视化了每个主题下每个单词的显着性。

在此处输入图片说明

但是我们有没有办法提取每个主题下每个单词的显着性? 或者如何直接使用Gensim LDA计算每个单词的显着性?

所以最后,我想得到一个 Pandas 数据框,一行代表一个词,每一列代表每个主题,它的值代表相应主题下词的显着性。

提前谢谢了。

Gensim 的 LDA 支持对 Chuang 等人 (2012) 的这种特殊“显着性”计算没有开箱即用的支持。

不过,我怀疑模型的.get_term_topics()和/或.get_topic_terms()方法是实现该计算的正确支持数据。 特别是,这些方法中的一种或另一种可能提供p( w | t )项,但需要更深入地阅读论文才能确定。 (我怀疑P(t)项可能需要对训练数据进行单独调查。)

来自课堂文档:

https://radimrehurek.com/gensim/models/ldamodel.html#gensim.models.ldamodel.LdaModel.get_term_topics

返回相关主题表示为它们的 ID 和它们分配的概率的对,按与给定单词的相关性排序。

https://radimrehurek.com/gensim/models/ldamodel.html#gensim.models.ldamodel.LdaModel.get_topic_terms

返回词 ID - 主题生成的最相关词的概率对。

我之前没有遇到过这种特殊的“显着性”计算,但是如果它在 LDA 用户中很受欢迎,或者具有潜在的普遍用途,并且您知道如何计算它,那么它可能是对 Gensim 项目的一个受欢迎的贡献- 特别是如果它可以是LdaModel上一个简单的额外方便的方法。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM