簡體   English   中英

從 Gensim LDA 或 pyLDAvis 中提取詞顯着性

[英]Extract Word Saliency from Gensim LDA or pyLDAvis

我看到 pyLDAvis 可視化了每個主題下每個單詞的顯着性。

在此處輸入圖片說明

但是我們有沒有辦法提取每個主題下每個單詞的顯着性? 或者如何直接使用Gensim LDA計算每個單詞的顯着性?

所以最后,我想得到一個 Pandas 數據框,一行代表一個詞,每一列代表每個主題,它的值代表相應主題下詞的顯着性。

提前謝謝了。

Gensim 的 LDA 支持對 Chuang 等人 (2012) 的這種特殊“顯着性”計算沒有開箱即用的支持。

不過,我懷疑模型的.get_term_topics()和/或.get_topic_terms()方法是實現該計算的正確支持數據。 特別是,這些方法中的一種或另一種可能提供p( w | t )項,但需要更深入地閱讀論文才能確定。 (我懷疑P(t)項可能需要對訓練數據進行單獨調查。)

來自課堂文檔:

https://radimrehurek.com/gensim/models/ldamodel.html#gensim.models.ldamodel.LdaModel.get_term_topics

返回相關主題表示為它們的 ID 和它們分配的概率的對,按與給定單詞的相關性排序。

https://radimrehurek.com/gensim/models/ldamodel.html#gensim.models.ldamodel.LdaModel.get_topic_terms

返回詞 ID - 主題生成的最相關詞的概率對。

我之前沒有遇到過這種特殊的“顯着性”計算,但是如果它在 LDA 用戶中很受歡迎,或者具有潛在的普遍用途,並且您知道如何計算它,那么它可能是對 Gensim 項目的一個受歡迎的貢獻- 特別是如果它可以是LdaModel上一個簡單的額外方便的方法。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM