[英]Latent Dirichlet Allocation Implementation with Gensim
我正在做關於 LDA 主題建模的項目,我使用 gensim (python) 來做到這一點。 我閱讀了一些參考資料,它說要獲得最佳 model 主題,我們需要確定兩個參數,傳遞次數和主題數。 真的嗎? 對於傳遞的數量,我們將看到傳遞穩定的點,對於主題的數量,我們將看到哪個主題具有最低值。
num_topics = 10
chunksize = 2000
passes = 20
iterations = 400
eval_every = None
是否有必要使用 gensim 庫中的所有參數?
好的 LDA 模型主要取決於主題的數量。 通過的次數越多,主題 model 就越准確(訓練所需的時間也越長)。
當然,不必使用所有參數。 大多數情況下,您只會通過所需的 arguments。 要找到最佳主題數,您可以獲取 c_v 連貫性值並找到給定網格上的最高連貫性。 通常,連貫性是比困惑度更好的度量,因為它更符合人類注釋者。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.