[英]Computation of Error rate in nearest neighbor classification algorithm
我试图找到K最近邻算法的K的最佳值。 我一直在Matlab上为不同数量的类成员运行这种分类方法,但是当我们使用不同的K值时,我需要计算错误率。我试图用这个想法作为例子:
我有以下数据集:
1 3 1
2 3 2
2 1 2
3 3 2
3 4 1
3 3 2
2 2 2
第一列是x轴,第二列是y轴,第三列是类的标签,我需要使用K-NN算法对点(x,y)进行分类。 我使用不同的K值。我的问题是,如果我知道那个点(4,1)不包含在源数据集中但我知道它来自类标签1.我如何计算错误率某些K值基于方法Leave-one-out-cross-validation。
非常感谢你提前
问候
Rinadi
留一法交叉验证意味着,给定您的模型m
,大小为n
训练集T
和一些评估度量(错误度量) E
您按如下方式进行:
T
每个点(x,y)
:
m
在T\\(x,y)
(所有点,但在1中取得) E( m , (x,y) )
,例如你检查m
是否能够正确地确定y
给定x
(然后是E
= 0)(和E
= 1) E
值的平均值 结果,您有一个均值泛化误差估计 - 您检查了模型在预测一个点的标签上的效果,并对训练集的其余部分进行了训练。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.