繁体   English   中英

预训练的 spacy 模型或 spacy.blank,对于自定义 NER 哪个是正确的方法?

[英]pre-trained spacy model or spacy.blank,for custom NER which is the right way?

我想训练一个 spacy 自定义 NER 模型,哪个是最好的选择?

火车数据准备好了(doccano)

选项 1. 使用现有的预训练 spacy 模型并使用自定义 NER? 更新它。

选项 2. 使用带有自定义 NER 的 spacy.blank() 创建一个空模型?

我只想在文本中标识我的自定义实体,不需要其他类型的实体......目前

您希望尽可能多地利用transfer learning :这意味着您很可能希望使用预先训练的模型(例如在 Wikipedia 数据上)并针对您的用例对其进行微调。 这是因为从头开始训练spacy.blank模型需要大量数据,而微调预训练模型可能只需要几百个标签。

但是,请注意catastrophic forgetting ,即在对某些新标签进行微调时,模型可能会“忘记”一些旧标签,因为它们不再存在于训练集中。

例如,假设您尝试在标记LOCPERSONORG的预训练 NER 模型之上标记实体DOCTOR 您标记 200 个 DOCTOR 记录并使用它们微调您的模型。 您可能会发现该模型现在将每个PERSON预测为DOCTOR

这就是人们在不了解更多数据的情况下所能说的。 有关更多详细信息,请查看培训 ner 上spacy 文档

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM