[英]LDA Topic Models package
研究員,
我是主題建模的初學者。 我在R中使用主題模型包。函數調用為LDA(data,k)。
我想知道使用什么alpha和beta值? 另外,哪種推論算法用於參數估計? EM還是Gibbs?
謝謝
我發現人們通常將alpha設置為20 / T,其中T是主題數,而beta = 0.01。
變異EM和Gibbs采樣均可用於推斷。
使用?LDA
LDA(x, k, method = "VEM", control = NULL, model = NULL, ...)
因此,您可以指定方法。
lda <- LDA(x, control = list(alpha = 0.1), k = 2)
您還可以在控制選項中指定alpha
使用Dirichlet將主題的分布定義為alpha參數的函數。 有多個Dirichlet-一個在文檔中,另一個在整個語料庫中。
在基本的LDA中,可以設置Alpha,以定義主題在語料庫中的Dirichlet分布。 通常使用的alpha值是0.001、0.01、0.1、1等(通常是1 / K,如所提到的那樣)。
如果alpha很小,則意味着(優先設置)平均每個文檔可能包含較少的主題(極端值為1個主題或所有主題)。 如果將alpha設置得很低,則每個文檔中的概率分布(后驗)將非常不均勻。
無論您設置什么,固定單個字母都意味着平均每個主題大小(后驗概率的平均值)在平均文檔中是相似的。
INSTEAD根據數據估算alpha。
閱讀“重新考慮LDA先驗”,並考慮在python中使用GENSIM。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.