[英]labelling of dataset in machine learning
我对机器学习的一些基本概念有疑问。 我观察到的示例仅作了简要概述。为训练系统,将特征向量作为输入。 在监督学习的情况下,数据集被标记。 我对标签感到困惑。 例如,如果我必须区分两种类型的图片,我将提供一个特征向量,并在输出侧进行测试,我将为A类型提供1,为B类型提供2。但是,如果我要提取感兴趣的区域从图像数据集中。 如何使用SVM标记数据以提取ROI。 我希望我能传达我的困惑。 谢谢您的期待。
在诸如SVM的监督学习中,数据集应组成如下:
<i-th feature vector><i-th label>
i
从1到训练集中的模式数量(也包括示例或观察值 ),因此这代表了训练集中的一条记录,可用于训练SVM分类器。
因此,基本上,您有一个由此类元组组成的集合,如果确实只有2个标签(二进制分类问题),则可以轻松使用SVM。 确实,借助训练集和训练标签将可以对SVM模型进行训练,并且一旦训练阶段完成,您就可以使用另一组(称为验证集或测试集),其结构与训练集的结构相同,测试您的SVM的准确性。
换句话说,SVM工作流程的结构应如下:
同样重要的是要知道训练集记录应该正确,并带有先验标记 :如果训练标签不正确,则SVM将永远无法正确预测以前看不见的模式的输出。 您不必根据要提取的ROI标记数据,数据必须先验地正确标记:SVM将具有整套A类图片和B类图片集,并将了解决策边界可以将类型A的图片和类型B的图片分开。您不必弄乱标签:如果这样做,就不必进行分类和/或机器学习和/或模式识别。 您基本上是在欺骗结果。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.