簡體   English   中英

Adam optimezer 是否在每一層更新權重?

[英]Is Adam optimezer updating weight in every layer?

我是神經網絡的新手,所以我對 ADAM optimezer 有點困惑。 例如,我將 MLP 與這樣的架構一起使用: 在此處輸入圖像描述

我之前用過SDG,所以想問一下用adam的優化改變權重和SDG更新每一層的權重是一樣的嗎? 在上面的示例中,這是否意味着從輸出到隱藏層 2 將有 2 個權重變化,從隱藏層 2 到隱藏層 1 將有 8 個權重變化,最后從隱藏層 1 到輸入有 4 個權重變化? 因為我看到的例子,他們只更新從輸出到隱藏層 2 的權重。

您可以同時使用 SGD 和 Adam 來計算網絡中每個權重的更新(只要損失對於權重是可微的)。 如果您使用 Tensorflow 或 Pytorch 並在草圖中構建模型,默認情況下,當您執行優化器步驟時,所有權重都會更新。 (如果你真的想要,你也可以限制優化器只使用一部分參數。)

SGD 和 Adam 之間的區別在於,對於 SGD,權重更新是在(負)梯度方向上的簡單步驟,而對於 Adam,梯度步驟是使用先前權重更新的運行統計數據進行縮放的。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM