簡體   English   中英

如何使用Gensim打印十大主題?

[英]How to print top ten topics using Gensim?

在官方說明中,LDA中的主題之間沒有自然的順序。

至於方法show_topics(),如果它返回的num_topics <= self.num_topics所有主題的子集是任意的,則可能在兩次LDA訓練運行之間發生變化。

但是我傾向於找到語料庫的十大常見話題。 還有其他方法可以做到這一點嗎?

非常感謝。

如文檔所述,LDA中的主題之間沒有自然的順序。 如果您有自己的主題排序標准(例如出現頻率),則始終可以從模型中檢索主題的整個列表,然后自己對其進行排序。

但是,即使“十個最頻繁的主題”的概念也模棱兩可,並且可以合理地提出頻率的幾種不同定義。 您是指分配給最多單詞標記的主題嗎? 您是說所有文檔中平均比例最高的主題嗎? 這種歧義是gensim沒有內置的主題排序方法的原因。

gensim LDA文檔中, 列舉了以下方法:

top_topics(語料庫=無,文本=無,字典=無,window_size =無,連貫性='u_mass',topn = 20,進程= -1)

這可能會有所幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM