繁体   English   中英

lucene支持常见的NLP任务

[英]lucene support for common NLP tasks

我正在进行一个文本挖掘项目,该项目计划在以后集成Lucene。 我当前的实现将openNLP用于常见的NLP任务,例如令牌化,构建n-gram特征。 我很好奇,Lucene是否可以支持这些功能? 与openNLP相比,Lucene是否可以针对大规模文档收集实现高效率?

  1. Lucene提供标记化和n-gram分析。
  2. 如果您的Lucene文档具有一个或多个类别,则可以通过计算命中项所属的每个类别的数目,然后将命中次数最多的类别作为查询的类别,来实现Hyperpipes分类器。 (我敢肯定,您还可以实现其他分类器-刚想到Hyperpipes,因为它可以避免使用搜索引擎作为后端。)
  3. 由于Lucene是一个库,因此可以从GUI,命令行程序或服务(守护程序)中使用它。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM