簡體   English   中英

Gensim 的潛在狄利克雷分配實現

[英]Latent Dirichlet Allocation Implementation with Gensim

我正在做關於 LDA 主題建模的項目,我使用 gensim (python) 來做到這一點。 我閱讀了一些參考資料,它說要獲得最佳 model 主題,我們需要確定兩個參數,傳遞次數和主題數。 真的嗎? 對於傳遞的數量,我們將看到傳遞穩定的點,對於主題的數量,我們將看到哪個主題具有最低值。

num_topics = 10
chunksize = 2000
passes = 20
iterations = 400
eval_every = None 

是否有必要使用 gensim 庫中的所有參數?

好的 LDA 模型主要取決於主題的數量。 通過的次數越多,主題 model 就越准確(訓練所需的時間也越長)。

當然,不必使用所有參數。 大多數情況下,您只會通過所需的 arguments。 要找到最佳主題數,您可以獲取 c_v 連貫性值並找到給定網格上的最高連貫性。 通常,連貫性是比困惑度更好的度量,因為它更符合人類注釋者。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM