[英]Passing Python strings to Mallet for topic modelling
我正在使用BeautifulSoup構建一個與HTML中的元數據一起收集的文本語料庫。 如果我可以從Python中調用Mallet並讓它從Python字符串中模擬主題,而不是從目錄中的文本文件中模擬主題,那將非常有用。 這樣我就可以將Mallet定位的n個關鍵字放入每個文件中。
我收到一條消息,說我跑的時候已經認出了Mallet:
from nltk.classify import mallet
from subprocess import call
mallet.config_mallet("malletdir/mallet-2.0.7/bin")
但是我對接下來的步驟沒有任何好運,甚至不確定Mallet是否接受除保存文件以外的任何內容。
我無法找到任何我真正理解的文檔。 有人看過這個可摘文件嗎? (NLTK書沒有進入Mallet)。 我也很樂意學習Python中任何其他主題建模方法,我可以在沒有深入Python知識的情況下進行操作。
對不起,這是我的第一個牛仔競技表演。
我曾嘗試用NLTK項目實現Mallet ,並且在死胡同之后我也陷入了死胡同。 我認為要保留的主要內容是Mallet是基於Java的,而NLTK是用Python編寫的。
你已經知道了,但我個人認為我在努力混合技術,因為我沒有扎實的Java背景。 我從同事那里收到了關於使用Python的Mallet的相同反饋,“准備花很多時間調試。”
從那時起,我一直在使用sklearn庫進行Python。 它更普遍地針對機器學習,而不是直接針對NLP,但可以很好地用於它。 它配備了大量的建模工具,大部分都依賴於NumPy所以它應該非常快。 我已經使用了很多,可以說它寫得很好並且有文檔記錄。
我不想阻止你使用Mallet,特別是因為我這么說。 但是如果您對替代方案持開放態度,我認為您會發現在使用NLTK構建項目時,使用Python模塊要容易得多,因為它本身是用Python編寫的。 我希望這有幫助!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.