[英]Computation of Error rate in nearest neighbor classification algorithm
我試圖找到K最近鄰算法的K的最佳值。 我一直在Matlab上為不同數量的類成員運行這種分類方法,但是當我們使用不同的K值時,我需要計算錯誤率。我試圖用這個想法作為例子:
我有以下數據集:
1 3 1
2 3 2
2 1 2
3 3 2
3 4 1
3 3 2
2 2 2
第一列是x軸,第二列是y軸,第三列是類的標簽,我需要使用K-NN算法對點(x,y)進行分類。 我使用不同的K值。我的問題是,如果我知道那個點(4,1)不包含在源數據集中但我知道它來自類標簽1.我如何計算錯誤率某些K值基於方法Leave-one-out-cross-validation。
非常感謝你提前
問候
Rinadi
留一法交叉驗證意味着,給定您的模型m
,大小為n
訓練集T
和一些評估度量(錯誤度量) E
您按如下方式進行:
T
每個點(x,y)
:
m
在T\\(x,y)
(所有點,但在1中取得) E( m , (x,y) )
,例如你檢查m
是否能夠正確地確定y
給定x
(然后是E
= 0)(和E
= 1) E
值的平均值 結果,您有一個均值泛化誤差估計 - 您檢查了模型在預測一個點的標簽上的效果,並對訓練集的其余部分進行了訓練。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.