機器學習中的步長和學習率有什么區別？

Question

我正在使用 TensorFlow 來實現一些基本的 ML 代碼。 我想知道是否有人可以簡短地解釋以下函數中步長和學習率之間的含義和區別。

我使用tf.train.GradientDescentOptimizer()來設置參數學習率和linear_regressor.train()來設置步數。 我一直在查看 tensorflow.org 上關於這些函數的文檔，但我仍然沒有完全掌握這些參數的含義。

謝謝你，如果我能提供更多信息，請告訴我。

Answer 1

在 SGD 中，您計算批次的梯度，並按照由學習率lr定義的量沿所述梯度的方向移動參數：

params=old_params - lr* grad

其中grad是參數損失的梯度。

tensorflow 或類似庫中的step通常只表示每個 epoch 的此類更新數量。 因此，如果您有step=1000和lr=0.5 ，您將在每個時期以lr=0.5調用偽代碼1000次以上。