我想在spaCy尚无有效模型的新语言(希伯来语)上使用spaCy的Matcher类。

我找到了一个有效的令牌生成器+ POS标记器(来自Stanford NLP),但是我更喜欢spaCy,因为它的Matcher可以帮助我执行一些基于规则的NER。

可以为基于规则的Matcher提供POS标记的文本,而不是标准的NLP管道吗?

#1楼 票数:1 已采纳

您可以手动设置来自其他来源的spacy文档的单词和标签,然后使用Matcher。 这是一个使用英语单词/标签来演示的示例:

from spacy.lang.he import Hebrew
from spacy.tokens import Doc
from spacy.matcher import Matcher

words = ["my", "words"]
tags = ["PRP$", "NNS"]

nlp = Hebrew()
doc = Doc(nlp.vocab, words=words)
for i in range(len(doc)):
    doc[i].tag_ = tags[i]

# This is normally set by the tagger. The Matcher validates that
# the Doc has been tagged when you use the `"TAG"` attribute.
doc.is_tagged = True

matcher = Matcher(nlp.vocab)
pattern = [{"TAG": "PRP$"}]
matcher.add("poss", None, pattern)
print(matcher(doc))
# [(440, 0, 1)]

#2楼 票数:0

如果要使用spaCy训练新的统计模型,则应阅读有关训练spaCy的统计模型的文档。

#3楼 票数:0

据我所知,spaCy还没有针对希伯来语的训练模型。 为了让您使用没有模型的语言,

from spacy.lang.he import Hebrew
nlp = Hebrew()
#or
nlp = spacy.blank("he")

非常确定您可以从这里构建基于规则的匹配器。

  ask by rubmz translate from so

未解决问题?本站智能推荐:

1回复

如何使用spaCy在真实情况下执行NER,然后在小写情况下进行lemmatization

我尝试使用带有法语模型fr_core_news_sm spaCy 2.0.12对文本进行fr_core_news_sm 。 Morevoer,我想用任意字符序列替换人物姓名,并使用token.ent_type_ == 'PER'来检测人物姓名。 示例结果将是“ Pierre aime les
1回复

spaCy:如何使用一些已加载的模型为此将命名实体写入现有Doc对象?

我根据如下文档根据自定义标记列表创建了Doc对象: import spacy from spacy.tokens import Doc nlp = spacy.load("my_ner_model") doc = Doc(nlp.vocab, words=["Hello", ",", "wo
1回复

每次迭代后保存spacy的NER模型

我试图在每次迭代后保存到Spacy自定义NER模型。 我们是否有任何与tensorflow中的API类似的API,以在每次/确定不执行任何操作后节省模型权重。 的迭代。 然后,我可以重新加载保存的模型并从那里继续训练。 还有如何在Linux中利用系统上的所有内核。 我发现只有四分之
2回复

如何训练以行号为特征的 spaCy 模型?

我是 nlp 和spaCy的新手,我正在从事一个从名片中提取人和公司名称的项目。 为了提取文本,我使用了一个像样的 OCR 函数,我已经制作了它,它给了我这样的东西: 起初,我正在尝试使用默认的英语 NER 逐行处理该作业,但很快意识到这还不够。 最终我决定创建我自己的自定义 NER,它将使
1回复

使用 spacy 替换实体及其实体标签

我想通过使用 Spacy 用标签替换每个实体来处理我的数据,我有 3000 个文本行需要用标签实体替换实体, 例如: “格鲁吉亚最近成为美国第一个‘禁止穆斯林文化’的州。” 并想变成这样: “GPE 最近成为“禁止 NORP 文化”的 ORDINAL GPE 状态。 ”
1回复

使用多处理的 Spacy 训练器

我正在尝试使用 spacy 训练自定义 ner 模型。 目前,我有超过 2k 条记录用于训练,每个文本由 100 多个单词组成,每条记录至少有 2 个以上的实体。 我运行它 50 次迭代。 完全训练需要2个多小时。 有没有办法使用多处理进行训练? 它会改善训练时间吗?
1回复

预训练的 spacy 模型或 spacy.blank,对于自定义 NER 哪个是正确的方法?

我想训练一个 spacy 自定义 NER 模型,哪个是最好的选择? 火车数据准备好了(doccano) 选项 1. 使用现有的预训练 spacy 模型并使用自定义 NER? 更新它。 选项 2. 使用带有自定义 NER 的 spacy.blank() 创建一个空模型? 我只想在文本中标识我的
1回复

NER 使用 Spacy 库在简历解析器上没有给出正确的结果

我正在使用 SpaCY 的命名实体识别从简历中提取名称、组织等。 这是我的python代码。 如果我看到输出,它看起来不太好。 名称未正确识别。 姓氏被视为组织名称,迪拜被视为人名等。 这是我从公共数据集获取的简历快照。 我想从一组简历中提取候选人姓名、组织、地点等。 当我阅读文档时,它