![](/img/trans.png)
[英]How to change the format of training data for custom NER model retraining using SpaCy?
[英]How many training data(sentences) are required for custom NER using spacy python?[Just rought idea]
我想知道假设我有 10 个自定义实体来识别我应该给出多少带注释的训练句子(任何粗略的想法)?
先感谢您!! :)
我是新手,请帮忙
为了开发自定义的 ner 模型,每个实体至少需要 50-100 次出现以及它们的适当上下文。 否则,如果您的数据少于自定义模型,则会过度拟合。 因此,根据您的数据,您将需要至少 200 到 300 个句子。
对于来自 Spacy 的自定义 NER 模型,每个实体肯定需要大约 100 个样本,并且在你的数据集中也没有任何偏差。
这一切都是根据我的经验。
建议-:Spacy Custom 模型你可以探索,但是对于生产级别或一些好的项目,你不能完全依赖它,你必须同时做一些NLP/关系提取等。
希望这可以帮助。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.