[英]In the Stanford NLP POS tagger, setting normalizeParenthese=True changes the POS results
我可能在POS标记器中发现了一个错误。 无论我将“ -tokenizerOptions”标志与“ normalizeParentheses = True”还是“ False”一起使用,标记结果都会更改。 我正在使用通过以下服务器设置的服务器从python访问标记器:
pos_args=['java', '-mx400m', '-cp', homedir+'/models/stanfordpostagger.jar','edu.stanford.nlp.tagger.maxent.MaxentTaggerServer','-model','english-bidirectional-distsim.tagger','-port','2021','-loadClassifier',english.all.3class.distsim.crf.ser.gz','-tokenizerOptions','normalizeParentheses=true']
POS=Popen(pos_args)
并且我使用SNER包进行标记。
如果我用normalizeParentheses = true标记句子“(鲍勃很好)”,我得到:
[(u'-LRB-', u'-LRB-'),
(u'Bob', u'NNP'),
(u'is', u'VBZ'),
(u'nice', u'JJ'),
(u'-RRB-', u'-RRB-')]
但是,如果我使用normalizeParentheses = false,则会得到:
[(u'(', u'NNP'),
(u'Bob', u'NNP'),
(u'is', u'VBZ'),
(u'nice', u'JJ'),
(u')', u'NN')]
而这个版本的标记器还会在许多单词不在时将它们标记为外来('FW')。
我尝试了许多其他选项,但只有这个选项和normalizeOtherBrackets = False似乎导致了这种现象。 好像这两个选项导致使用完全不同的标记方法。 我很好奇这是否确实是一个错误或是否有一个聪明的解决方法?
使用POS标记器时,您需要标准化括号。 已对带有标准化括号的数据进行了培训。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.