[英]What is the motivation for cross validation on feature selection preprocessing?
我看到了幾篇關於特征選擇(包裝器和嵌入式方法)的文章和示例,它們將樣本數據拆分為訓練集和測試集。
我理解為什么我們需要使用交叉驗證(將數據拆分為訓練和測試集)來構建和測試模型的分數(提議算法的實際預測)。
但我不明白這樣做的動機是什么?
我們需要選擇哪些特征並沒有真實的結果,那么如何改進特征選擇的過程呢?
有什么好處?
大多數特征選擇方法,例如包裝模型,都需要比較模型在使用不同特征組合下的性能。
交叉驗證提供了一種更穩健的方法來比較使用不同特征子集時的性能,因此提供了更穩健的特征選擇過程。 例如,如果使用 K-folds 交叉驗證,則比較將基於來自不同數據折疊的誤差的平均值,因此,選擇將導致最小泛化誤差的子集。
此外,對於不同的特征組合,最優超參數不一定相同。 交叉驗證有助於調整,因此是更公平的比較。
這也是有關此主題的信息資源。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.