文本分類和主題建模

Question

對於大量文章，我想獲得分配給不同主題和主題內權重的主題模型，不同子主題的權重是多少。 例如，如果我提供了一篇同時屬於商業和技術領域的文章，那么程序的輸出應該是這樣的：-

可以成功完成這些工作的最佳開源語言處理程序是什么？

Answer 1

您可以使用開源NLTK Toolkit進行分類。

Answer 2

我會嘗試 NLTK，但是 scikit-learn，盡管它的學習曲線比 NLTK 更陡峭，但可能是更好的選擇。 它的可配置性要強得多。

Answer 3

有幾個程序可以完成這項任務的一部分，對於初學者，我推薦mallet 。 請注意，任何主題建模程序都會以您想要的形式為您提供主題，即，

 ( 0.438 - Marketing , 0.375 - Companies, 0.062 - Office Work)

但是您需要自己分配標簽（在本例中為Business ）。 Mallet 還為您提供了文本到主題的分解（由數字標識，而不是由標簽標識）。