[英]Linear Loss and Accuracy CNN graph
理想情況下(根據經典梯度下降法),您應該使用一批(整個數據集)。 但它太慢了,您的數據集可能不適合 memory。 所以我們使用梯度近似(隨機梯度下降法)——通過分批分割數據集(見這里——https://en.wikipedia.org/wiki/Stochastic_gradient_descent )。
所以更大的批次 - 更好的近似值。
要查看差異,您必須通過步數(而不是時期)進行比較:批量大小越大 - 每個時期的步數越少。 現在你在 55 個大批量的 epoch 和 50 個小批量的 epoch 中獲得了 19% 的准確率。 這是相似的。 但是在第一種情況下,您已經完成了 16 次以上的步驟,這花費了更多時間(最多 16 次)。
另一個重要的一點——你可以對大批量使用更高的學習率,這可以進一步縮短訓練時間。 就您而言 - 您可以將學習率提高 4 倍。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.