繁体   English   中英

建筑文章分类器-NLTK / Scikit-learn /其他NLP实施

[英]Building article Classifier - NLTK/ Scikit-learn/ Other NLP implementations

对于我当前的项目,我必须构建一个主题建模或分类实用程序,该实用程序将处理成千上万的文章以将它们分类为各种主题(开始时主题可能是40-50)。 例如,它将遍历数据库技术文章并将其分类为文章是否为NOSQL文章/ Relational DB文章/ Graph Database文章(仅作为示例)。

我有非常基本的NLP背景知识,我们的团队主要有python后端脚本编写经验。 我开始研究可用于实现它的各种选项,并遇到了基于Python的NLTK和Scikit-Learn,以及基于JVM的Weka和Mallet。
我的理解是,NLTK更适合于学习和理解各种NLP技术,例如主题分类。

有人可以建议我们实施时可以使用的最佳开源解决方案吗? 如果我错过了任何有助于答案的信息,请告诉我。

建立主题分类模型可以分为两种方式。 如果您有一个训练集,其中有针对文档的标签,则始终可以使用scikit learning建立分类器

但是,如果您没有任何培训数据,则可以构建称为主题模型的东西。 它基本上给您主题作为一组单词。

您可以使用Gensim包来实现此目的。 非常清晰,快速且易于实现( 在此处查看

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM