簡體   English   中英

文件編號將如何影響Gensim LDA的結果?

[英]How will the document number affect the result of Gensim LDA?

我使用三個txt文件來做一個LDA項目,我嘗試用兩種方法來分離這三個txt文件。過程之間的區別是:

docs = [[doc1.split(' ')], [doc2.split(' ')], [doc3.split(' ')]]
docs1 = [[''.join(i)] for i in re.split(r'\n{1,}', doc11)] + [[''.join(e)] for e in re.split(r'\n{1,}', doc22)] + [[''.join(t)] for t in re.split(r'\n{1,}', doc33)]    
dictionary = Dictionary(docs)
dictionary1 = Dictionary(docs1)
corpus = [dictionary.doc2bow(doc) for doc in docs]
corpus1 = [dictionary.doc2bow(doc) for doc in docs1]

並且文件編號是

len(corpus)
len(corpus1)
3
1329

但LDA模型中創建一個垃圾結果corpus ,但一個比較好的結果corpus1

我使用這種模型來訓練文檔

model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                    id2word=id2word,
                                    num_topics=10, 
                                    random_state=100,
                                    update_every=1,
                                    chunksize=100,
                                    passes=10,
                                    alpha='auto',
                                    per_word_topics=True)

兩種型號的區別在於文件編號,其他所有都相同

為什么LDA在這兩個模型中會產生如此不同的結果?

如果您研究LDA,那么我認為幾乎所有地方的第一行都是“ LDA對大型語料庫有利,而對短文本則無效”。 在您的corpus只有3個文檔,而在corpus1是1329,因此絕對可以為corpus1產生准確的結果

另一點是LDA基於迭代工作,並從文檔中找到隨機樣本進行訓練,因此,當您擁有大量語料庫(更多文檔)時,與相同樣本(少量文檔)相比,每個樣本很可能會有所不同,並且不同樣本可能導致以獲得更准確的結果。

希望這有意義。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM