簡體   English   中英

標記的LDA +指導的LDA主題建模

[英]Labeled LDA + Guided LDA topic modelling

我對機器學習,NLP和LDA都很陌生,所以我不確定我是否能完全正確地解決我的問題。 但我嘗試使用已知主題和多個主題選擇來進行無監督的主題建模。 基於主題建模,但是具有已知主題?

我可以為每個文檔中的每個主題加上標簽,而我的不受監督的集也可以有效地受到監督(LLDA是一種受監督的技術)。

閱讀本文時,我遇到了其他一些潛在問題-首先,我的數據按類別和子類別進行組織。 根據這篇論文,LLDA在文本之間有顯着的語義區別時會更有效-我在相對較近的子類別中不會特別注意。 此外,該論文指出LLDA並非旨在成為多標簽分類器。

我希望通過包括GuidedLDA的指導部分來彌補這些缺陷(我尚未閱讀有關此的文章,但我確實閱讀了https://medium.freecodecamp.org/how-we-we-changed-unsupervised-lda-到半監督式指南dlda-e36a95f3a164 )。

因此,有沒有一種算法(我會假設對LLDA進行了修改,但是我在這一領域的閱讀仍然不是很好),該算法允許人們使用某種形式的直覺來幫助具有已知主題類的無監督主題模型選擇多個主題?

至於為什么我不僅僅使用Guided LDA,我打算對其進行測試,看看它的性能如何(與LLDA一起)。 但是它也不是為多個標簽而設計的。

如果很重要,請稍作說明-我實際上是在使用文檔和文字作為數據,我讀到了有關LDA與其他數據類型一起使用的信息。

進一步說明-盡管我聽說有一個不錯的主題建模工具Mallet,但我有豐富的Python經驗,我可能會探索它,但尚未研究它(也許它對此有所幫助?)

正如您說的那樣,您可以嘗試“引導式LDA”,您可以通過以下方式獲得多個標簽:

有一個稱為theta分布的分布,或者當我們想要獲取文檔的主題時,引導的LDA的輸出將是一個數組,該數組具有每個文檔每個主題的概率。 通常我們會以最高的概率來選擇主題。也許您可以根據自己的問題設置閾值,然后選擇概率更大的主題。

這將幫助您解決帶有多個標簽的無監督引導主題建模問題。

因為您有一組已知的主題,所以使用受監督的LDA / LLDA是有意義的。 如果使用無監督的LDA並用已知主題標記所有文檔,則它會在給定文檔之間找到關聯,但它們可能與給定主題不相關。

我一直在用槌和Python創建受監督的LDA。 Gensim為Mallet的LDA類提供了一個包裝器,但是我最好還是通過命令行使用python的子進程來使用Mallet。 我以David Mimno的帖子為起點。

您可以為一個文檔設置多個標簽,LDA的優點在於它幾乎就像一個模糊關聯最近鄰居算法。 子類別對於lda來說應該不是問題,因為文檔可以與父主題和子主題相關聯,並且它們不必均勻分布。 因此,這是一個多標簽分類器。

如果您真的想使用無監督分類器來處理文檔,我建議您使用RNN,即遞歸神經網絡。 它對文本/文檔處理特別有用,因為它會尋找數據序列上的關聯。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM