繁体   English   中英

张量运算的导数

[英]Derivative of a tensor operation

我正在阅读一本关于深度学习的书,我对作者提到的一个想法有点困惑。

我不明白为什么我们从权重中减去 -step * gradient (f) (W0) 而不仅仅是 -step,因为 -step * gradient (f) (W0) 表示损失,而 -step 是参数(即x 值,即重量变化很小)

您需要少量更改与其梯度相反的参数,以确保损失下降。 仅使用step并不能保证损失减少。 这在优化中称为梯度下降,并且有收敛证明。 您可以检查有关这个主题的在线教程,例如这个

梯度告诉您移动的方向和步长将有助于控制您移动的幅度,以便您的序列收敛。

我们不能只减去step 回想一下, step只是一个标量。 W0是张量。 我们不能用标量数减去张量。 梯度是一个与W0大小相同的张量,这将使减法得到很好的定义。

关于梯度下降的阅读可能有助于你的理解。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM