[英]Derivative of a tensor operation
我正在阅读一本关于深度学习的书,我对作者提到的一个想法有点困惑。
我不明白为什么我们从权重中减去 -step * gradient (f) (W0) 而不仅仅是 -step,因为 -step * gradient (f) (W0) 表示损失,而 -step 是参数(即x 值,即重量变化很小)
您需要少量更改与其梯度相反的参数,以确保损失下降。 仅使用step
并不能保证损失减少。 这在优化中称为梯度下降,并且有收敛证明。 您可以检查有关这个主题的在线教程,例如这个。
梯度告诉您移动的方向和步长将有助于控制您移动的幅度,以便您的序列收敛。
我们不能只减去step
。 回想一下, step
只是一个标量。 W0
是张量。 我们不能用标量数减去张量。 梯度是一个与W0
大小相同的张量,这将使减法得到很好的定义。
关于梯度下降的阅读可能有助于你的理解。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.