繁体   English   中英

如何在OpenNLP中初始化令牌模型?

[英]How do I initialize the token model in OpenNLP?

我正在用Java对名词短语提取器进行编程,并且试图使用OpenNLP库标记名词。 不幸的是,OpenNLP的文档非常混乱。 目前,我只是在标记一串英文文本。 文档让我使用类似于以下内容的方式初始化令牌模型:

InputStream modelIn = new FileInputStream("en-token.bin");

try {
TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
   e.printStackTrace();
}
finally {
  if (modelIn != null) {
    try {
      modelIn.close();
    }
    catch (IOException e) {
    }
 }
}

Tokenizer tokenizer = new TokenizerME(model);

String tokens[] = tokenizer.tokenize("An input sample sentence.");

我对此感到困惑的是“ en-token.bin”是什么,以及我在哪里可以找到它。 是否应该将其包含在压缩文件的原始下载中? 还是我必须从OpenNLP的网站下载它?

这是文档的链接: https : //opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.tokenizer

您能给我的任何帮助将不胜感激。 先感谢您!

您可以在http://opennlp.sourceforge.net/models-1.5/中找到模型。 由于许可原因,它们不属于Apache原始下载的一部分。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM