LDA主題模型包

Question

研究員，

我是主題建模的初學者。 我在R中使用主題模型包。函數調用為LDA（data，k）。

我想知道使用什么alpha和beta值？ 另外，哪種推論算法用於參數估計？ EM還是Gibbs？

謝謝

Answer 1

我發現人們通常將alpha設置為20 / T，其中T是主題數，而beta = 0.01。

變異EM和Gibbs采樣均可用於推斷。

Answer 2

使用？LDA

LDA(x, k, method = "VEM", control = NULL, model = NULL, ...)

因此，您可以指定方法。

 lda <- LDA(x, control = list(alpha = 0.1), k = 2)

您還可以在控制選項中指定alpha

Answer 3

使用Dirichlet將主題的分布定義為alpha參數的函數。 有多個Dirichlet-一個在文檔中，另一個在整個語料庫中。

在基本的LDA中，可以設置Alpha，以定義主題在語料庫中的Dirichlet分布。 通常使用的alpha值是0.001、0.01、0.1、1等（通常是1 / K，如所提到的那樣）。

如果alpha很小，則意味着（優先設置）平均每個文檔可能包含較少的主題（極端值為1個主題或所有主題）。 如果將alpha設置得很低，則每個文檔中的概率分布（后驗）將非常不均勻。

無論您設置什么，固定單個字母都意味着平均每個主題大小（后驗概率的平均值）在平均文檔中是相似的。

INSTEAD根據數據估算alpha。

閱讀“重新考慮LDA先驗”，並考慮在python中使用GENSIM。