我可能在POS标记器中发现了一个错误。 无论我将“ -tokenizerOptions”标志与“ normalizeParentheses = True”还是“ False”一起使用,标记结果都会更改。 我正在使用通过以下服务器设置的服务器从python访问标记器:

pos_args=['java', '-mx400m', '-cp', homedir+'/models/stanfordpostagger.jar','edu.stanford.nlp.tagger.maxent.MaxentTaggerServer','-model','english-bidirectional-distsim.tagger','-port','2021','-loadClassifier',english.all.3class.distsim.crf.ser.gz','-tokenizerOptions','normalizeParentheses=true']
POS=Popen(pos_args)

并且我使用SNER包进行标记。

如果我用normalizeParentheses = true标记句子“(鲍勃很好)”,我得到:

[(u'-LRB-', u'-LRB-'),
 (u'Bob', u'NNP'),
 (u'is', u'VBZ'),
 (u'nice', u'JJ'),
 (u'-RRB-', u'-RRB-')]

但是,如果我使用normalizeParentheses = false,则会得到:

[(u'(', u'NNP'),
 (u'Bob', u'NNP'),
 (u'is', u'VBZ'),
 (u'nice', u'JJ'),
 (u')', u'NN')]

而这个版本的标记器还会在许多单词不在时将它们标记为外来('FW')。

我尝试了许多其他选项,但只有这个选项和normalizeOtherBrackets = False似乎导致了这种现象。 好像这两个选项导致使用完全不同的标记方法。 我很好奇这是否确实是一个错误或是否有一个聪明的解决方法?

#1楼 票数:0

使用POS标记器时,您需要标准化括号。 已对带有标准化括号的数据进行了培训。

  ask by AstroBen translate from so

未解决问题?本站智能推荐:

1回复

斯坦福NLP错误的POS标记

我对https://nlp.stanford.edu/software/lex-parser.shtml#Download最新版本的 stanford pos 标记版本 4.0.0 有问题我在许多其他句子中都取得了成功,但也有许多无法标记的简单句子,然后它给出了“找不到任何模型!”的错误。 下载的模
1回复

删除POS标记器的标记

是否可以从句子中删除标签? 可以通过扫描文件并找到标签并将其删除来完成此操作,但是由于标签很多(某些型号有30+,有些型号大约有48-50,它们基本上遵循penn treebank pos标签 ),是否有一种快速一种更有效地删除标签的好方法? 我确实检查了API,但是没有删除标签的方法。
3回复

Scala中的POS标记

我尝试使用下面的斯坦福解析器在Scala中标记一个句子 我的错误类型不匹配; 发现:java.lang.String required:java.util.List [_ <:edu.stanford.nlp.ling.HasWord]在行中的val解析:Tree = lp.appl
1回复

核心nlp演示和解析器演示之间的POS标记结果不一致

POS标记之间的结果不一致 电话: http : //nlp.stanford.edu : 8080/parser/ 和 C: http : //nlp.stanford.edu : 8080 / corenlp / process 例如, C:我们往东/ JJ到奥斯陆。
1回复

有没有办法在UWP的.NET项目中使用stanford-nlp-pos-tagger。如果不是什么替代品

尝试在通用Windows平台的.NET项目中安装Stanford.NLP.POSTagger时,我收到此错误: NU1202:Package Stanford.NLP.POSTagger 3.9.2与uap10.0.15063(UAP,Version = v10.0.15063)不兼容。
3回复

Stanford-POS-Tagger的令人惊讶的标签

我在以下文字上使用了Stanford-POS-Tagger (摘自《印度时报》关于印度超级联赛球员拍卖的新闻 ): 皇家挑战者班加罗尔习惯于在印度超级联赛拍卖会上发表强烈的言论,他们在周六(2月6日)再次与经验丰富的澳大利亚全能球员Shane Watson签了字。 球队为这位34岁的球员
1回复

POS标记器仅标记句子的开头和结尾

是否可以修改斯坦福POS标记器,使其仅标记句子的开头和结尾,而没有其他标记? 之前是否曾尝试或完成此操作? 该代码可用吗? 需要破解哪些文件才能实现此目的? 是否有另一个工具可以可靠且相对快速地以良好的格式提供此功能?
1回复

斯坦福pos标记器中的xml格式

我已经标记了20个句子,这是我的代码: 这是输出: 正如您在句子节点中看到的那样,它具有Id属性,并且在这里它经常为0而不应该是0.我期望值= 0、1、2、3、4,...我不明白这是什么错误用我的代码。