繁体   English   中英

在Python中使用Gensim进行主题建模

[英]Topic Modeling Using Gensim in Python

我有两节课的单词表。 说出A类中 n个项目和B类中 m个项目。 我想在python中使用带有gensim包(适用于LDA)的主题建模,以便为A类与B类进行训练。同时,我对Topic ModelingPython还是陌生的 有人知道我该怎么做吗? 我的意思是,我应该合并每个班级和使用gensim的所有袋子吗?还是应该分别为每个项目使用袋子? 谢谢!

如果我对您的理解正确,则希望比较两个来源的文档。

用Gensim做到这一点的一种方法是:

  • 从所有文档(A和B)创建单词语料库(〜将文本转换为1和0的X n矩阵)
  • 在您的语料库上训练LDA模型(〜查找主题)
  • 将语料库转换为LDA空间(〜确定与文档相关的主题)

现在,您可以查看每个文档的主题分布,并使用Gensim的相似度方法确定两个文档的相似度。

有关详细信息,请参阅Gensim的教程 您唯一需要做的修改就是将A和B中的文档合并为一个更大的文档,并将索引保​​存在某个位置,以便以后可以轻松比较它们。

但是,根据您的数据和目标,其他形式的LDA(例如相关主题模型)可能更合适。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM