繁体   English   中英

LDA结果在两个不同主题数之间的相似性?

[英]Similarity between LDA results over two different number of topics?

如果我们在LDA中选择20个主题,然后选择30个主题。 所以我的问题是,这些结果是否都将与这20个主题相交并产生相似的结果

简短答案-不。 LDA的工作方式是使用Gibbs采样器获取文档向量上的Dirichlet分布。 然后在此样本上进行分配,因此,由于抽样随机性和分配不确定性,分配将总是不同的,除非您定义显式随机种子并运行相同数量的主题k。 看看Blei等人的原始论文。 2003年,看看如何定义k。

更新(关于评论):分层LDA(hLDA)试图通过按照中餐厅模式构建主题级别来解决保留主题和子主题的问题。 但这仍然不是完美的。

但是,平面LDA的工作方式是查看文档而不是主题以产生进一步的结果。 假设您遇到了主题0(餐厅的第一张桌子),并且所有文档都试图坐在那里,但实际上空间不足,因此您创建了另一个主题1,有些文档感到更舒适,等等,等等。如何创建这些表的观点。 但是有一件大的事情很重要-创建新表/主题1时主题0的更改,因为某些文档已离开第一个表,并将单词(或它们的共现概率)与它们一起带到新表中,而其中的所有单词鉴于新情况,主题0进行了改组。 当您创建更多的表/主题时,也会发生同样的情况,所有先前的表/主题也会被重新估计。 因此,以30个主题运行时,您将永远不会获得相同的20个主题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM