簡體   English   中英

將Python字符串傳遞給Mallet以進行主題建模

[英]Passing Python strings to Mallet for topic modelling

我正在使用BeautifulSoup構建一個與HTML中的元數據一起收集的文本語料庫。 如果我可以從Python中調用Mallet並讓它從Python字符串中模擬主題,而不是從目錄中的文本文件中模擬主題,那將非常有用。 這樣我就可以將Mallet定位的n個關鍵字放入每個文件中。

我收到一條消息,說我跑的時候已經認出了Mallet:

from nltk.classify import mallet
from subprocess import call
mallet.config_mallet("malletdir/mallet-2.0.7/bin")

但是我對接下來的步驟沒有任何好運,甚至不確定Mallet是否接受除保存文件以外的任何內容。

我無法找到任何我真正理解的文檔。 有人看過這個可摘文件嗎? (NLTK書沒有進入Mallet)。 我也很樂意學習Python中任何其他主題建模方法,我可以在沒有深入Python知識的情況下進行操作。

對不起,這是我的第一個牛仔競技表演。

如果您仍在尋找解決方案:Gensim(一個Python主題建模/機器學習包)有一個Mallet的包裝器,它易於使用且記錄良好。 以下是一些Gensim教程和Mallet包裝器的特定教程 您可能還需要閱讀一些安裝說明(主要是關於設置Java內存的部分) 在這里 ,然后你會准備好去。

我曾嘗試用NLTK項目實現Mallet ,並且在死胡同之后我也陷入了死胡同。 我認為要保留的主要內容是Mallet是基於Java的,而NLTK是用Python編寫的。

你已經知道了,但我個人認為我在努力混合技術,因為我沒有扎實的Java背景。 我從同事那里收到了關於使用Python的Mallet的相同反饋,“准備花很多時間調試。”

從那時起,我一直在使用sklearn庫進行Python。 它更普遍地針對機器學習,而不是直接針對NLP,但可以很好地用於它。 它配備了大量的建模工具,大部分都依賴於NumPy所以它應該非常快。 我已經使用了很多,可以說它寫得很好並且有文檔記錄。

我不想阻止你使用Mallet,特別是因為我這么說。 但是如果您對替代方案持開放態度,我認為您會發現在使用NLTK構建項目時,使用Python模塊要容易得多,因為它本身是用Python編寫的。 我希望這有幫助!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM