簡體   English   中英

文本分類和主題建模

[英]Text classification & topic modelling

對於大量文章,我想獲得分配給不同主題和主題內權重的主題模型,不同子主題的權重是多少。 例如,如果我提供了一篇同時屬於商業和技術領域的文章,那么程序的輸出應該是這樣的:-

  • 0.593 商業(0.438 - 市場營銷,0.375 - 公司,0.062 - 辦公室工作)
  • 0.148 技術(0.500 技術類型,0.250 - 高科技商業區,0.250 - 科技公司)
  • 0.111 社會(0.333 - 組織,0.333 - 社會中的技術,0.333 - 勞工)

可以成功完成這些工作的最佳開源語言處理程序是什么?

您可以使用開源NLTK Toolkit進行分類。

我會嘗試 NLTK,但是 scikit-learn,盡管它的學習曲線比 NLTK 更陡峭,但可能是更好的選擇。 它的可配置性要強得多。

http://scikit-learn.org/stable/documentation.html

有幾個程序可以完成這項任務的一部分,對於初學者,我推薦mallet 請注意,任何主題建模程序都會以您想要的形式為您提供主題,即,

 ( 0.438 - Marketing , 0.375 - Companies, 0.062 - Office Work)

但是您需要自己分配標簽(在本例中為Business )。 Mallet 還為您提供了文本到主題的分解(由數字標識,而不是由標簽標識)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM