文本分类和主题建模

Question

对于大量文章，我想获得分配给不同主题和主题内权重的主题模型，不同子主题的权重是多少。 例如，如果我提供了一篇同时属于商业和技术领域的文章，那么程序的输出应该是这样的：-

可以成功完成这些工作的最佳开源语言处理程序是什么？

Answer 1

您可以使用开源NLTK Toolkit进行分类。

Answer 2

我会尝试 NLTK，但是 scikit-learn，尽管它的学习曲线比 NLTK 更陡峭，但可能是更好的选择。 它的可配置性要强得多。

Answer 3

有几个程序可以完成这项任务的一部分，对于初学者，我推荐mallet 。 请注意，任何主题建模程序都会以您想要的形式为您提供主题，即，

 ( 0.438 - Marketing , 0.375 - Companies, 0.062 - Office Work)

但是您需要自己分配标签（在本例中为Business ）。 Mallet 还为您提供了文本到主题的分解（由数字标识，而不是由标签标识）。