繁体   English   中英

在Stanford NLP POS标记器中,设置normalizeParenthese = True会更改POS结果

[英]In the Stanford NLP POS tagger, setting normalizeParenthese=True changes the POS results

我可能在POS标记器中发现了一个错误。 无论我将“ -tokenizerOptions”标志与“ normalizeParentheses = True”还是“ False”一起使用,标记结果都会更改。 我正在使用通过以下服务器设置的服务器从python访问标记器:

pos_args=['java', '-mx400m', '-cp', homedir+'/models/stanfordpostagger.jar','edu.stanford.nlp.tagger.maxent.MaxentTaggerServer','-model','english-bidirectional-distsim.tagger','-port','2021','-loadClassifier',english.all.3class.distsim.crf.ser.gz','-tokenizerOptions','normalizeParentheses=true']
POS=Popen(pos_args)

并且我使用SNER包进行标记。

如果我用normalizeParentheses = true标记句子“(鲍勃很好)”,我得到:

[(u'-LRB-', u'-LRB-'),
 (u'Bob', u'NNP'),
 (u'is', u'VBZ'),
 (u'nice', u'JJ'),
 (u'-RRB-', u'-RRB-')]

但是,如果我使用normalizeParentheses = false,则会得到:

[(u'(', u'NNP'),
 (u'Bob', u'NNP'),
 (u'is', u'VBZ'),
 (u'nice', u'JJ'),
 (u')', u'NN')]

而这个版本的标记器还会在许多单词不在时将它们标记为外来('FW')。

我尝试了许多其他选项,但只有这个选项和normalizeOtherBrackets = False似乎导致了这种现象。 好像这两个选项导致使用完全不同的标记方法。 我很好奇这是否确实是一个错误或是否有一个聪明的解决方法?

使用POS标记器时,您需要标准化括号。 已对带有标准化括号的数据进行了培训。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM