繁体   English   中英

机器学习中数据集的标注

[英]labelling of dataset in machine learning

我对机器学习的一些基本概念有疑问。 我观察到的示例仅作了简要概述。为训练系统,将特征向量作为输入。 在监督学习的情况下,数据集被标记。 我对标签感到困惑。 例如,如果我必须区分两种类型的图片,我将提供一个特征向量,并在输出侧进行测试,我将为A类型提供1,为B类型提供2。但是,如果我要提取感兴趣的区域从图像数据集中。 如何使用SVM标记数据以提取ROI。 我希望我能传达我的困惑。 谢谢您的期待。

在诸如SVM的监督学习中,数据集应组成如下:

<i-th feature vector><i-th label>

i从1到训练集中的模式数量(也包括示例观察值 ),因此这代表了训练集中的一条记录,可用于训练SVM分类器。

因此,基本上,您有一个由此类元组组成的集合,如果确实只有2个标签(二进制分类问题),则可以轻松使用SVM。 确实,借助训练集和训练标签将可以对SVM模型进行训练,并且一旦训练阶段完成,您就可以使用另一组(称为验证集或测试集),其结构与训练集的结构相同,测试您的SVM的准确性。
换句话说,SVM工作流程的结构应如下:

  1. 使用训练集和训练标签训练SVM
  2. 使用上一步中训练的模型预测验证集的标签
  3. 如果您知道实际的验证标签是什么,则可以将预测的标签与实际的标签进行匹配,并检查已正确预测了多少个标签。 正确预测的标签数量与验证集中的标签总数之间的比率返回一个[0; 1]之间的标量,这被称为SVM模型的准确性
  4. 如果您对ROI感兴趣,则可能需要检查训练有素的SVM参数(主要是权重和偏差)以重建分离超平面

同样重要的是要知道训练集记录应该正确,并带有先验标记 :如果训练标签不正确,则SVM将永远无法正确预测以前看不见的模式的输出。 您不必根据要提取的ROI标记数据,数据必须先验地正确标记:SVM将具有整套A类图片和B类图片集,并将了解决策边界可以将类型A的图片和类型B的图片分开。您不必弄乱标签:如果这样做,就不必进行分类和/或机器学习和/或模式识别。 您基本上是在欺骗结果。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM