文件編號將如何影響Gensim LDA的結果？

Question

我使用三個txt文件來做一個LDA項目，我嘗試用兩種方法來分離這三個txt文件。過程之間的區別是：

docs = [[doc1.split(' ')], [doc2.split(' ')], [doc3.split(' ')]]
docs1 = [[''.join(i)] for i in re.split(r'\n{1,}', doc11)] + [[''.join(e)] for e in re.split(r'\n{1,}', doc22)] + [[''.join(t)] for t in re.split(r'\n{1,}', doc33)]    
dictionary = Dictionary(docs)
dictionary1 = Dictionary(docs1)
corpus = [dictionary.doc2bow(doc) for doc in docs]
corpus1 = [dictionary.doc2bow(doc) for doc in docs1]

並且文件編號是

len(corpus)
len(corpus1)
3
1329

但LDA模型中創建一個垃圾結果corpus ，但一個比較好的結果corpus1

我使用這種模型來訓練文檔

model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                    id2word=id2word,
                                    num_topics=10, 
                                    random_state=100,
                                    update_every=1,
                                    chunksize=100,
                                    passes=10,
                                    alpha='auto',
                                    per_word_topics=True)

兩種型號的區別在於文件編號，其他所有都相同

為什么LDA在這兩個模型中會產生如此不同的結果？

Answer 1

如果您研究LDA，那么我認為幾乎所有地方的第一行都是“ LDA對大型語料庫有利，而對短文本則無效”。 在您的corpus只有3個文檔，而在corpus1是1329，因此絕對可以為corpus1產生准確的結果

另一點是LDA基於迭代工作，並從文檔中找到隨機樣本進行訓練，因此，當您擁有大量語料庫（更多文檔）時，與相同樣本（少量文檔）相比，每個樣本很可能會有所不同，並且不同樣本可能導致以獲得更准確的結果。

希望這有意義。

文件編號將如何影響Gensim LDA的結果？

問題描述

1 個解決方案

解決方案1
0 2018-12-02 05:57:03

文件編號將如何影響Gensim LDA的結果？

問題描述

1 個解決方案

解決方案1 0 2018-12-02 05:57:03

解決方案1
0 2018-12-02 05:57:03