簡體   English   中英

LDA主題模型包

[英]LDA Topic Models package

研究員,

我是主題建模的初學者。 我在R中使用主題模型包。函數調用為LDA(data,k)。

我想知道使用什么alpha和beta值? 另外,哪種推論算法用於參數估計? EM還是Gibbs?

謝謝

我發現人們通常將alpha設置為20 / T,其中T是主題數,而beta = 0.01。

變異EM和Gibbs采樣均可用於推斷。

使用?LDA

LDA(x, k, method = "VEM", control = NULL, model = NULL, ...) 

因此,您可以指定方法。

 lda <- LDA(x, control = list(alpha = 0.1), k = 2)

您還可以在控制選項中指定alpha

使用Dirichlet將主題的分布定義為alpha參數的函數。 有多個Dirichlet-一個在文檔中,另一個在整個語料庫中。

在基本的LDA中,可以設置Alpha,以定義主題在語料庫中的Dirichlet分布。 通常使用的alpha值是0.001、0.01、0.1、1等(通常是1 / K,如所提到的那樣)。

如果alpha很小,則意味着(優先設置)平均每個文檔可能包含較少的主題(極端值為1個主題或所有主題)。 如果將alpha設置得很低,則每個文檔中的概率分布(后驗)將非常不均勻。

無論您設置什么,固定單個字母都意味着平均每個主題大小(后驗概率的平均值)在平均文檔中是相似的。

INSTEAD根據數據估算alpha。

閱讀“重新考慮LDA先驗”,並考慮在python中使用GENSIM。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM