繁体   English   中英

文本分类和主题建模

[英]Text classification & topic modelling

对于大量文章,我想获得分配给不同主题和主题内权重的主题模型,不同子主题的权重是多少。 例如,如果我提供了一篇同时属于商业和技术领域的文章,那么程序的输出应该是这样的:-

  • 0.593 商业(0.438 - 市场营销,0.375 - 公司,0.062 - 办公室工作)
  • 0.148 技术(0.500 技术类型,0.250 - 高科技商业区,0.250 - 科技公司)
  • 0.111 社会(0.333 - 组织,0.333 - 社会中的技术,0.333 - 劳工)

可以成功完成这些工作的最佳开源语言处理程序是什么?

您可以使用开源NLTK Toolkit进行分类。

我会尝试 NLTK,但是 scikit-learn,尽管它的学习曲线比 NLTK 更陡峭,但可能是更好的选择。 它的可配置性要强得多。

http://scikit-learn.org/stable/documentation.html

有几个程序可以完成这项任务的一部分,对于初学者,我推荐mallet 请注意,任何主题建模程序都会以您想要的形式为您提供主题,即,

 ( 0.438 - Marketing , 0.375 - Companies, 0.062 - Office Work)

但是您需要自己分配标签(在本例中为Business )。 Mallet 还为您提供了文本到主题的分解(由数字标识,而不是由标签标识)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM