[英]Is Adam optimezer updating weight in every layer?
您可以同時使用 SGD 和 Adam 來計算網絡中每個權重的更新(只要損失對於權重是可微的)。 如果您使用 Tensorflow 或 Pytorch 並在草圖中構建模型,默認情況下,當您執行優化器步驟時,所有權重都會更新。 (如果你真的想要,你也可以限制優化器只使用一部分參數。)
SGD 和 Adam 之間的區別在於,對於 SGD,權重更新是在(負)梯度方向上的簡單步驟,而對於 Adam,梯度步驟是使用先前權重更新的運行統計數據進行縮放的。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.