[英]How do I initialize the token model in OpenNLP?
我正在用Java对名词短语提取器进行编程,并且试图使用OpenNLP库标记名词。 不幸的是,OpenNLP的文档非常混乱。 目前,我只是在标记一串英文文本。 文档让我使用类似于以下内容的方式初始化令牌模型:
InputStream modelIn = new FileInputStream("en-token.bin");
try {
TokenizerModel model = new TokenizerModel(modelIn);
}
catch (IOException e) {
e.printStackTrace();
}
finally {
if (modelIn != null) {
try {
modelIn.close();
}
catch (IOException e) {
}
}
}
Tokenizer tokenizer = new TokenizerME(model);
String tokens[] = tokenizer.tokenize("An input sample sentence.");
我对此感到困惑的是“ en-token.bin”是什么,以及我在哪里可以找到它。 是否应该将其包含在压缩文件的原始下载中? 还是我必须从OpenNLP的网站下载它?
这是文档的链接: https : //opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.tokenizer
您能给我的任何帮助将不胜感激。 先感谢您!
您可以在http://opennlp.sourceforge.net/models-1.5/中找到模型。 由于许可原因,它们不属于Apache原始下载的一部分。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.