簡體 English 中英

LIBSVM過度擬合

[英]LIBSVM overfitting

原文 2014-05-10 11:17:00 4 1 machine-learning/ svm/ libsvm/ cross-validation

在進行了10次交叉驗證后，我訓練了兩個svms（LIBSVM）和15451個樣本，並找到了gamma和C（RBF內核）的最佳參數值。 在一個svm我只使用了1個功能，而在第二個svm中我只使用了一個功能（看看這個附加功能是否正在改進預測）。 在CV之后，我的准確度為75％（具有一個特征的SVM）和77％（具有該額外一個的SVM）。 在另外15451個實例上測試后，我的准確率分別為70％和72％。

我知道這稱為過度擬合，但在這里它很重要，因為它只有5％的差異。

我該怎么做才能避免過度擬合？

使用一兩個功能和一個相對較大的訓練集甚至是好的嗎？

希望你能幫助我。

1 個解決方案

這里過度擬合似乎有些混亂。

簡而言之，“過度擬合”並不意味着您擬合訓練集的准確性（不成比例地）高於擬合通用測試集。 相反，這是效果，而不是原因。

“過度擬合”意味着你的模型試圖不費力地適應訓練集，並且在拾取所有信號后，它開始適應噪聲。 作為一個（非常標准的）示例，假設生成來自直線的數據點，但隨后添加一點高斯噪聲：這些點將“大致”在一條線上，但不完全相同。 當你試圖找到一條能夠通過每一點的曲線（例如27級的多項式）時，當你真正需要的是一條直線時，你會過度擬合。

一種可視化檢查方法是繪制學習曲線。

這個網頁看起來很有用，所以我從這里開始了解更多信息： http ： //www.astroml.org/sklearn_tutorial/practical.html