繁体   English   中英

您可以将 spaCy 设置为仅标记 GPE(删除 ORG)吗?

[英]Can you set spaCy to only tag GPE (remove ORG's)?

在一些情况下,spaCy 标记的是 ORG 而不是我正在寻找的 GPE。 我不确定如何“关闭”标记 ORG 以便它只查找 GPE,或者是否有办法首先确定 GPE 的优先级。

import spacy
from spacy import displacy
nlp = spacy.load('en_core_web_lg')doc = nlp('Is there a way to bypass the ORG tag for the Los Angeles Lakers and only tag Los Angeles')
displacy.render(doc, style="ent")

在那个例子中,当“洛杉矶湖人队”在一起时,它将被标记为 ORG,但我真正想要的是 GPE Los Angeles。 另一个例子是“西雅图海鹰队”正在寻找西雅图的 GPE,但我得到了 ORG

不,你不能这样做。 模型将标签之间的关系内在化,因此在推理过程中不能只忽略一个标签。

这是嵌套实体的情况,从某种意义上说,“洛杉矶”是 GPE 而“洛杉矶湖人队”同时是 ORG 是正确的。 但这很难 model 并且通常甚至没有用,因此大多数模型不这样做并且大多数数据集不支持它。 所以在这种情况下,model 已经被训练专门做你不希望它做的事情。

如果您正在寻找美国主要城市的真实位置,最好只使用 EntityRuler 来匹配大量地名。

您的另一种选择是从头开始训练 model。 如果它只是针对 GPE,那可能还不错,但它仍然会涉及很多。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM