繁体   English   中英

使用不属于 label 的数据训练 spaCy TextCategorizer?

[英]Training spaCy TextCategorizer with data that belongs to no label?

我正在收集多标签分类的训练数据。 一些输入该项目的数据将没有足够的信息将其分配给其中一个标签。 如果我用不属于 label 的数据训练 model,它会不会避免标记不清楚的新数据? 我是否需要使用“Unclear”label 对其进行训练,还是应该不标记此类数据?

我似乎无法在 spaCy 文档中找到这个问题的答案。

假设你真的想要多标签分类,即一个实例可以有零个或多个类,那么有一些数据没有任何 label 就可以了。如果 model 正确执行,它也应该预测类似实例没有 label。 但是要小心,没有 label 并不意味着 model 不清楚,这意味着所有可能的类都不适用(它们被独立考虑)。

请注意,在多类分类的情况下,即一个实例总是恰好有一个 class,不可能将没有 label 分配给一个实例。 但创建 class“不清楚”也不是最优的,因为在多类分类中 model 预测最有可能的 class,即相对于其他分类。 语义上“无标签”不是与其他可比的常规 label。

从技术上讲,这不是编程问题(为了将来参考,最好在https://datascience.stackexchange.com/https://stats.stackexchange.com/上提出此类问题)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM