繁体   English   中英

使用自定义语料库训练NLTK中的NER模型

[英]Train NER model in NLTK with custom corpus

我在conll2002格式中有一个带注释的语料库,即一个制表符分隔文件,带有一个标记,pos-tag和IOB标记,后跟实体标记。 例:

John NNP B-PERSON

我想在NLTK中训练一个葡萄牙语 NER模型,最好是MaxEnt模型。 不想使用NLTK的“内置”斯坦福大学NER,因为我已经能够使用独立的斯坦福NER。 我想使用MaxEnt模型作为斯坦福NER的比较。

我找到了NLTK培训师,但我无法使用它。

我怎样才能做到这一点?

nltk书的第6章和第7章解释了如何在IOB编码的语料库上训练“chunker”。 第7章中的例子进行了NP分块,但这是偶然的 - 你的chunker将无论你训练什么都会大块。 您需要确定哪些功能对命名实体识别有用; 第6章介绍了为分类器选择功能的基础知识。 最后,查看nltk自己的命名实体chunker使用的功能的来源。 他们可能也会用葡萄牙语做得很好; 然后你可以尝试添加词干或其他葡萄牙语特有的功能。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM