繁体   English   中英

如何避免在 SpaCy 中使用 Matcher 双重提取重叠模式?

[英]How to avoid double-extracting of overlapping patterns in SpaCy with Matcher?

我需要通过 python Spacy Matcher 从 2 个列表中提取项目组合。 问题如下:让我们有 2 个列表:

colors=['red','bright red','black','brown','dark brown']
animals=['fox','bear','hare','squirrel','wolf']

我通过以下代码匹配序列:

first_color=[]
last_color=[]
only_first_color=[]
for color in colors:
    if ' ' in color:
        first_color.append(color.split(' ')[0])
        last_color.append(color.split(' ')[1])
    else:
        only_first_color.append(color)
matcher = Matcher(nlp.vocab)

pattern1 = [{"TEXT": {"IN": only_first_color}},{"TEXT":{"IN": animals}}]
pattern2 = [{"TEXT": {"IN": first_color}},{"TEXT": {"IN": last_color}},{"TEXT":{"IN": animals}}]

matcher.add("ANIMALS", None, pattern1,pattern2)

doc = nlp('bright red fox met black wolf')

matches = matcher(doc)

for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(start, end, span.text)

它给出了 output:

0 3 bright red fox
1 3 red fox
4 6 black wolf

我怎样才能只提取'bright red fox'和'black wolf'? 我应该更改模式规则还是对匹配进行后处理?

任何想法不胜感激!

您可以使用spacy.util.filter_spans

过滤一系列Span对象并删除重复或重叠。 对于创建命名实体(其中一个标记只能是一个实体的一部分)或在将跨度与Retokenizer.merge合并时很有用。 当跨度重叠时,(第一个)最长的跨度优于较短的跨度。

Python代码:

matches = matcher(doc)
spans = [doc[start:end] for _, start, end in matches]
for span in spacy.util.filter_spans(spans):
    print(span.start, span.end, span.text)

Output:

0 3 bright red fox
4 6 black wolf

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM