簡體   English   中英

gensim LDA 培訓

[英]gensim LDA training

我正在為一個項目使用 gensim LDA model。 我似乎找不到合適數量的主題。 我的問題是,可以肯定的是,每次我訓練 model 時它都會重新啟動,對嗎? 例如,我嘗試了 47 個主題,結果很糟糕; 所以然后我 go 回到單元格並將 47 更改為 80 個主題並再次運行它。 它完全開始了新的訓練,並抹去了它在 47 個主題中學到的東西,對吧?

我的 LDA 結果很糟糕,相似度達到 100% 或 0%,而且我在參數調整方面遇到了麻煩。 LSI 給了我很好的結果。 謝謝!

是的,每次你訓練 LDA 時,它都會忘記迄今為止學到的東西。

一些可以幫助您獲得更好結果的建議和意見:

  • 確保您已對文本進行了適當的預處理。 這通常包括刪除標點符號和數字,刪除過於頻繁或罕見的停用詞和單詞,(可選)對文本進行詞形還原。 預處理取決於文本的語言和領域。
  • 關於超參數,您可以對 alpha 和 beta 使用“自動”模式,讓 model 學習 alpha 和 beta 的最佳值。 如果要修復它們,通常建議使用低於 1 的值。 檢查這個
  • LDA是一個概率model,這意味着如果你用相同的超參數重新訓練它,你每次都會得到不同的結果。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM