簡體 English 中英

沒有批量標准化的批量大小

[英]batch size without batch normalization

原文 2022-01-04 13:44:01 1 1 deep-learning/ pytorch/ batch-normalization/ batchsize/ batchnorm

我正在以 EDSR 作為基線 model 進行圖像超分辨率任務。 在 EDSR 之后，我沒有在我的 model 中使用任何批處理規范層。 我突然想出了一個關於批量大小的愚蠢問題。

目前，我正在訓練我的 model，批量大小=32（如在 EDSR 中）。 但是由於我沒有使用任何批量標准化技術，所以我看不出使用大於 1 的批量大小的任何理由。但我對自己的想法沒有信心，因為作者的實現使用大於 1 的批量大小。

有人可以幫我解決這個問題嗎？ 我錯過了什么？

1 個解決方案

在 FAIR 進行的 BatchNorm 研究中 Rethinking “Batch” 中，討論了批量標准化和批量大小。 根據下圖，您可以看到批量標准化和批量大小的關系。 它表明，當您使用較小的批量大小時，您不需要使用批量標准化。 當您有更大的批量大小時，批量標准化很有幫助。 使用較小的批大小和批標准化會導致訓練/測試不一致。

不同歸一化批大小下的分類錯誤，總批大小固定為 1024。綠色：使用小批量統計的未增強訓練集的錯誤率； 紅色：使用 PreciseBN 估計的總體統計數據在驗證集上的錯誤率； 藍色：使用隨機批次的小批量統計數據在驗證集上的錯誤率（與訓練中使用的標准化批次大小相同）。 紅色和藍色曲線之間的差距是由訓練測試不一致造成的，而藍色和綠色曲線之間的差距是在未見數據集上的泛化差距。