机器学习中数据集的标注

Question

我对机器学习的一些基本概念有疑问。 我观察到的示例仅作了简要概述。为训练系统，将特征向量作为输入。 在监督学习的情况下，数据集被标记。 我对标签感到困惑。 例如，如果我必须区分两种类型的图片，我将提供一个特征向量，并在输出侧进行测试，我将为A类型提供1，为B类型提供2。但是，如果我要提取感兴趣的区域从图像数据集中。 如何使用SVM标记数据以提取ROI。 我希望我能传达我的困惑。 谢谢您的期待。

Answer 1

在诸如SVM的监督学习中，数据集应组成如下：

<i-th feature vector><i-th label>

i从1到训练集中的模式数量（也包括示例或观察值 ），因此这代表了训练集中的一条记录，可用于训练SVM分类器。

因此，基本上，您有一个由此类元组组成的集合，如果确实只有2个标签（二进制分类问题），则可以轻松使用SVM。 确实，借助训练集和训练标签将可以对SVM模型进行训练，并且一旦训练阶段完成，您就可以使用另一组（称为验证集或测试集），其结构与训练集的结构相同，测试您的SVM的准确性。
换句话说，SVM工作流程的结构应如下：

使用训练集和训练标签训练SVM
使用上一步中训练的模型预测验证集的标签
如果您知道实际的验证标签是什么，则可以将预测的标签与实际的标签进行匹配，并检查已正确预测了多少个标签。 正确预测的标签数量与验证集中的标签总数之间的比率返回一个[0; 1]之间的标量，这被称为SVM模型的准确性 。
如果您对ROI感兴趣，则可能需要检查训练有素的SVM参数（主要是权重和偏差）以重建分离超平面

同样重要的是要知道训练集记录应该正确，并带有先验标记 ：如果训练标签不正确，则SVM将永远无法正确预测以前看不见的模式的输出。 您不必根据要提取的ROI标记数据，数据必须先验地正确标记：SVM将具有整套A类图片和B类图片集，并将了解决策边界可以将类型A的图片和类型B的图片分开。您不必弄乱标签：如果这样做，就不必进行分类和/或机器学习和/或模式识别。 您基本上是在欺骗结果。

机器学习中数据集的标注

问题描述

1 个解决方案

解决方案1
0 2016-02-14 11:00:13

机器学习中数据集的标注

问题描述

1 个解决方案

解决方案1 0 2016-02-14 11:00:13

解决方案1
0 2016-02-14 11:00:13