繁体 English 中英

使用不属于 label 的数据训练 spaCy TextCategorizer？

[英]Training spaCy TextCategorizer with data that belongs to no label?

原文 2022-11-17 17:53:16 5 1 nlp/ spacy/ text-classification/ multilabel-classification

我正在收集多标签分类的训练数据。 一些输入该项目的数据将没有足够的信息将其分配给其中一个标签。 如果我用不属于 label 的数据训练 model，它会不会避免标记不清楚的新数据？ 我是否需要使用“Unclear”label 对其进行训练，还是应该不标记此类数据？

我似乎无法在 spaCy 文档中找到这个问题的答案。

1 个解决方案

假设你真的想要多标签分类，即一个实例可以有零个或多个类，那么有一些数据没有任何 label 就可以了。如果 model 正确执行，它也应该预测类似实例没有 label。 但是要小心，没有 label 并不意味着 model 不清楚，这意味着所有可能的类都不适用（它们被独立考虑）。

请注意，在多类分类的情况下，即一个实例总是恰好有一个 class，不可能将没有 label 分配给一个实例。 但创建 class“不清楚”也不是最优的，因为在多类分类中 model 预测最有可能的 class，即相对于其他分类。 语义上“无标签”不是与其他可比的常规 label。

从技术上讲，这不是编程问题（为了将来参考，最好在https://datascience.stackexchange.com/或https://stats.stackexchange.com/上提出此类问题）。