繁体   English   中英

使用 spacy python 的自定义 NER 需要多少训练数据(句子)?[只是粗略的想法]

[英]How many training data(sentences) are required for custom NER using spacy python?[Just rought idea]

我想知道假设我有 10 个自定义实体来识别我应该给出多少带注释的训练句子(任何粗略的想法)?

先感谢您!! :)

我是新手,请帮忙

为了开发自定义的 ner 模型,每个实体至少需要 50-100 次出现以及它们的适当上下文。 否则,如果您的数据少于自定义模型,则会过度拟合。 因此,根据您的数据,您将需要至少 200 到 300 个句子。

对于来自 Spacy 的自定义 NER 模型,每个实体肯定需要大约 100 个样本,并且在你的数据集中也没有任何偏差。

这一切都是根据我的经验。

建议-:Spacy Custom 模型你可以探索,但是对于生产级别或一些好的项目,你不能完全依赖它,你必须同时做一些NLP/关系提取等。

希望这可以帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM