如果我使用简单的减号而不是 -=，pytorch 将 grad 属性设置为无

Question

这是一个显示问题的简单代码

import torch
X = torch.arange(-3, 3, step=0.1)
Y = X * 3
Y += 0.1 * torch.randn(Y.shape)

def my_train_model(iter):
    w = torch.tensor(-15.0, requires_grad=True)
    lr = 0.1
    for epoch in range(iter):
        print(w.grad)
        yhat = w * X
        loss = torch.mean((yhat - Y) ** 2)
        loss.backward()

        with torch.no_grad():
            print(w.grad)
            w = w - lr * w.grad # gradient exists if w-= lr*w.grad
            print(w.grad)
            w.grad.zero_()
        print(loss)

my_train_model(4)

这在执行w = w - lr * w.grad w.grad 设置为none ，但是如果我使用w -= lr * w.grad而不是上面的表达式，问题将得到解决！

第一个将w.grad设置为none的表达式有什么问题？

Answer 1

function torch.no_grad()保证不计算梯度，这意味着包含在其中的任何组件都是使用requires_grad=False创建的，如您在此示例中所见。

就地操作仅更改张量的值，来自论坛的这个答案：

就地操作是直接更改给定张量的内容而不进行复制的操作。

因此，对于您提出的问题， w = w - lr * w.grad将w替换为没有梯度的自身副本，而w -= lr * w.grad仅更改仍保持梯度的张量的内容来自torch.no_grad()之外的操作。

如果我使用简单的减号而不是 -=，pytorch 将 grad 属性设置为无

问题描述

1 个解决方案

解决方案1
2 已采纳 2022-08-10 02:20:14

如果我使用简单的减号而不是 -=，pytorch 将 grad 属性设置为无

问题描述

1 个解决方案

解决方案1 2 已采纳 2022-08-10 02:20:14

解决方案1
2 已采纳 2022-08-10 02:20:14