为什么 Adam 优化器的 Keras 实现有衰减参数而 Tensorflow 没有？

Question

为什么 Adam 优化器的 Keras 实现有衰减参数而 Tensorflow 没有？ 这个论点是什么想法？

Answer 1

为什么很难回答。

但是，当您的火车达到极限时，衰减很有趣。 降低学习率可能会改善您的模型并获得更好的结果。 但是机器学习就是测试。

这个想法只是在每次批量更新中降低学习率的值。

这是 Keras 使用的公式：

lr = self.lr
if self.initial_decay > 0:
    lr = lr * (1. / (1. + self.decay * K.cast(self.iterations, K.dtype(self.decay))))

基本上它的：

lr / (1 + decay*currentBatch) #considering currentBatch keeps incresing, not looping

Answer 2

这些差异可能以某种方式反映了在应用Adam时是否甚至需要学习率衰减的讨论。

所以这些原因说明了为什么会有关于 Adam 的学习率衰减到底是否有必要的讨论。