簡體   English   中英

使用RBF內核SVM時,c或gamma的高值是否有問題?

[英]Are high values for c or gamma problematic when using an RBF kernel SVM?

我正在使用WEKA / LibSVM來訓練術語提取系統的分類器。 我的數據不是線性可分的,因此我使用RBF內核而不是線性內核。
我遵循了Hsu等人指南。 並迭代c和gamma的幾個值。 最適合分類已知術語(測試和訓練材料當然不同)的參數相當高,c = 2 ^ 10且γ= 2 ^ 3。
到目前為止,高參數似乎工作正常,但我想知道它們是否會進一步導致任何問題,特別是在過度擬合方面。 我計划通過提取新術語來進行另一次評估,但由於我需要人類評判,這些評估費用很高。
即使兩個評估結果都是肯定的,我的參數仍然有問題嗎? 我可能還需要其他內核類型嗎?

非常感謝你!

通常,您必須執行交叉驗證以回答參數是否正確或是否導致過度擬合。

從“直覺”的角度來看 - 它似乎是高度過度擬合的模型。 高伽馬值意味着你的高斯非常狹窄(在每個尖端周圍凝聚),結合高C值將導致記憶大部分訓練集。 如果您查看支持向量的數量,如果它是您整個數據的50%,我不會感到驚訝。 其他可能的解釋是您沒有擴展數據。 大多數ML方法,尤其是SVM,需要對數據進行適當的預處理 這尤其意味着您應該對輸入數據進行標准化 (標准化),以使其或多或少地包含在單位范圍內。

RBF似乎是一個合理的選擇,所以我會繼續使用它。 高價值的伽瑪不是一件壞事,它取決於你的數據所在的規模。 雖然高C值可能導致過度擬合,但它也會受到比例的影響,因此在某些情況下它可能會很好。

如果您認為您的數據集是整個數據的良好表示,那么您可以使用交叉驗證來測試您的參數並讓您高枕無憂。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM