簡體   English   中英

在Python中使用Gensim進行主題建模

[英]Topic Modeling Using Gensim in Python

我有兩節課的單詞表。 說出A類中 n個項目和B類中 m個項目。 我想在python中使用帶有gensim包(適用於LDA)的主題建模,以便為A類與B類進行訓練。同時,我對Topic ModelingPython還是陌生的 有人知道我該怎么做嗎? 我的意思是,我應該合並每個班級和使用gensim的所有袋子嗎?還是應該分別為每個項目使用袋子? 謝謝!

如果我對您的理解正確,則希望比較兩個來源的文檔。

用Gensim做到這一點的一種方法是:

  • 從所有文檔(A和B)創建單詞語料庫(〜將文本轉換為1和0的X n矩陣)
  • 在您的語料庫上訓練LDA模型(〜查找主題)
  • 將語料庫轉換為LDA空間(〜確定與文檔相關的主題)

現在,您可以查看每個文檔的主題分布,並使用Gensim的相似度方法確定兩個文檔的相似度。

有關詳細信息,請參閱Gensim的教程 您唯一需要做的修改就是將A和B中的文檔合並為一個更大的文檔,並將索引保​​存在某個位置,以便以后可以輕松比較它們。

但是,根據您的數據和目標,其他形式的LDA(例如相關主題模型)可能更合適。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM