[英]Text classification & topic modelling
對於大量文章,我想獲得分配給不同主題和主題內權重的主題模型,不同子主題的權重是多少。 例如,如果我提供了一篇同時屬於商業和技術領域的文章,那么程序的輸出應該是這樣的:-
可以成功完成這些工作的最佳開源語言處理程序是什么?
您可以使用開源NLTK Toolkit進行分類。
我會嘗試 NLTK,但是 scikit-learn,盡管它的學習曲線比 NLTK 更陡峭,但可能是更好的選擇。 它的可配置性要強得多。
有幾個程序可以完成這項任務的一部分,對於初學者,我推薦mallet 。 請注意,任何主題建模程序都會以您想要的形式為您提供主題,即,
( 0.438 - Marketing , 0.375 - Companies, 0.062 - Office Work)
但是您需要自己分配標簽(在本例中為Business )。 Mallet 還為您提供了文本到主題的分解(由數字標識,而不是由標簽標識)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.