[英]What does it mean if my network can never overfit no matter how much I train it or expand its capacity?
高容量模型是眾所周知的事情。 它們令人驚訝地抵抗過度擬合,這與經典的統計學習理論相反,經典的統計學習理論認為,如果沒有明確的正則化,您將過度擬合。 例如, 本文說
大多數具有學習參數的深度神經網絡通常憑經驗進行很好的推廣,甚至配備了比訓練樣本數量(即高容量)有效得多的參數。因此,統計學習理論無法解釋深度學習模型的推廣能力。
另外, 本文和本文都在談論它。 您可以繼續閱讀這些文章中的參考文獻以了解更多信息。
就個人而言,即使經過數以萬計的訓練,我也從未見過高容量模型過擬合。 如果您想要適合的示例,請使用Lenet 5 for Cifar10,具有ReLU激活功能,並且沒有輟學,並使用學習率0.01
SGD對其進行訓練。 此模型中的訓練參數數量約為600億,與Cifar10(低容量模型)中的樣本數量相同。 在最多500-1000個時期之后,您會看到一個非常明顯的過度擬合,隨着時間的流逝,損失和錯誤會不斷增加。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.