Gensim 的潛在狄利克雷分配實現

Question

我正在做關於 LDA 主題建模的項目，我使用 gensim (python) 來做到這一點。 我閱讀了一些參考資料，它說要獲得最佳 model 主題，我們需要確定兩個參數，傳遞次數和主題數。 真的嗎？ 對於傳遞的數量，我們將看到傳遞穩定的點，對於主題的數量，我們將看到哪個主題具有最低值。

num_topics = 10
chunksize = 2000
passes = 20
iterations = 400
eval_every = None

是否有必要使用 gensim 庫中的所有參數？

Answer 1

好的 LDA 模型主要取決於主題的數量。 通過的次數越多，主題 model 就越准確（訓練所需的時間也越長）。

當然，不必使用所有參數。 大多數情況下，您只會通過所需的 arguments。 要找到最佳主題數，您可以獲取 c_v 連貫性值並找到給定網格上的最高連貫性。 通常，連貫性是比困惑度更好的度量，因為它更符合人類注釋者。

Gensim 的潛在狄利克雷分配實現

問題描述

1 個解決方案

解決方案1
0 2020-04-10 07:06:43

Gensim 的潛在狄利克雷分配實現

問題描述

1 個解決方案

解決方案1 0 2020-04-10 07:06:43

解決方案1
0 2020-04-10 07:06:43