繁体   English   中英

潜在语义索引主题的数量

[英]Number of Latent Semantic Indexing topics

我正在使用gensim的软件包在语料库上实现LSI。 我的目标是找出出现在语料库中的最常出现的不同主题。

如果我不知道语料库中的主题数量(我估计在5到20之间),那么设置LSI应该搜索的主题数量的最佳方法是什么? 寻找大量主题(20-30)或少数主题(~5)更好吗?

来自Radim本人:

这是一个很好的问题,但遗憾的是没有一个好的答案。

增加维度的数量总是提高检索准确性。 事实上,如果你使用所有维度(=训练矩阵的满级),LSI将为你提供与你输入的文件完全相同的文件,因此LSI将变得毫无意义。

如果您对它的数学方面感兴趣,请看一下这个问题: https//github.com/piskvorky/gensim/issues/28否则,只需将尺寸设置为几百到几千即可接受标准。 或者尝试几种不同的选择,测量准确度并选择最适合您问题的维度。

最好的,Radim

当我困惑时,这就是我有时会做的事情。 由于您已经从5-20缩小到主题,因此您可以迭代b / w其中一些值并查看哪个值最合适。

##Declare values for N_TOPICS
for i in lda.show_topics(topics=-N_TOPICS, topn=20, log=False, formatted=True): 
  print "TOPIC {0}: {1}\n".format(count, i) 

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM