繁体   English   中英

标记的LDA +指导的LDA主题建模

[英]Labeled LDA + Guided LDA topic modelling

我对机器学习,NLP和LDA都很陌生,所以我不确定我是否能完全正确地解决我的问题。 但我尝试使用已知主题和多个主题选择来进行无监督的主题建模。 基于主题建模,但是具有已知主题?

我可以为每个文档中的每个主题加上标签,而我的不受监督的集也可以有效地受到监督(LLDA是一种受监督的技术)。

阅读本文时,我遇到了其他一些潜在问题-首先,我的数据按类别和子类别进行组织。 根据这篇论文,LLDA在文本之间有显着的语义区别时会更有效-我在相对较近的子类别中不会特别注意。 此外,该论文指出LLDA并非旨在成为多标签分类器。

我希望通过包括GuidedLDA的指导部分来弥补这些缺陷(我尚未阅读有关此的文章,但我确实阅读了https://medium.freecodecamp.org/how-we-we-changed-unsupervised-lda-到半监督式指南dlda-e36a95f3a164 )。

因此,有没有一种算法(我会假设对LLDA进行了修改,但是我在这一领域的阅读仍然不是很好),该算法允许人们使用某种形式的直觉来帮助具有已知主题类的无监督主题模型选择多个主题?

至于为什么我不仅仅使用Guided LDA,我打算对其进行测试,看看它的性能如何(与LLDA一起)。 但是它也不是为多个标签而设计的。

如果很重要,请稍作说明-我实际上是在使用文档和文字作为数据,我读到了有关LDA与其他数据类型一起使用的信息。

进一步说明-尽管我听说有一个不错的主题建模工具Mallet,但我有丰富的Python经验,我可能会探索它,但尚未研究它(也许它对此有所帮助?)

正如您说的那样,您可以尝试“引导式LDA”,您可以通过以下方式获得多个标签:

有一个称为theta分布的分布,或者当我们想要获取文档的主题时,引导的LDA的输出将是一个数组,该数组具有每个文档每个主题的概率。 通常我们会以最高的概率来选择主题。也许您可以根据自己的问题设置阈值,然后选择概率更大的主题。

这将帮助您解决带有多个标签的无监督引导主题建模问题。

因为您有一组已知的主题,所以使用受监督的LDA / LLDA是有意义的。 如果使用无监督的LDA并用已知主题标记所有文档,则它会在给定文档之间找到关联,但它们可能与给定主题不相关。

我一直在用槌和Python创建受监督的LDA。 Gensim为Mallet的LDA类提供了一个包装器,但是我最好还是通过命令行使用python的子进程来使用Mallet。 我以David Mimno的帖子为起点。

您可以为一个文档设置多个标签,LDA的优点在于它几乎就像一个模糊关联最近邻居算法。 子类别对于lda来说应该不是问题,因为文档可以与父主题和子主题相关联,并且它们不必均匀分布。 因此,这是一个多标签分类器。

如果您真的想使用无监督分类器来处理文档,我建议您使用RNN,即递归神经网络。 它对文本/文档处理特别有用,因为它会寻找数据序列上的关联。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM