為什么 grad 對於 gpu 中的張量不可用

Question

a = torch.nn.Parameter(torch.ones(5, 5))
a = a.cuda()
print(a.requires_grad)
b = a
b = b - 2
print('a ', a)
print('b ', b)
loss = (b - 1).pow(2).sum()
loss.backward()
print(a.grad)
print(b.grad)

執行代碼后， a.grad為None盡管a.requires_grad為True 。 但是如果代碼a = a.cuda()被刪除， a.grad在 loss 后可用。

Answer 1

正在訪問不是葉張量的張量的 .grad 屬性。 在 autograd.backward() 期間不會填充 its.grad 屬性。 如果您確實想要非葉張量的梯度，請在非葉張量上使用.retain_grad()。 如果您錯誤地訪問了非葉張量，請確保您訪問的是葉張量。 有關更多信息，請參閱 github.com/pytorch/pytorch/pull/30531。

a = torch.nn.Parameter(torch.ones(5, 5))
a = a.cuda()
print(a.requires_grad)
b = a
b = b - 2
print('a ', a)
print('b ', b)
loss = (b - 1).pow(2).sum()

a.retain_grad() # added this line

loss.backward()
print(a.grad)

發生這種情況是因為您a = a.cuda()行覆蓋了a的原始值。

你可以使用

a = torch.nn.Parameter(torch.ones(5, 5))
a.cuda()

或者

a = torch.nn.Parameter(torch.ones(5, 5, device='cuda'))

a = torch.nn.Parameter(torch.ones(5, 5).cuda())

或明確要求保留a的梯度

a.retain_grad() # added this line

擦除中間變量的梯度可以節省大量的 memory。 所以最好只在需要的地方保留漸變。

為什么 grad 對於 gpu 中的張量不可用

問題描述

1 個解決方案

解決方案1
1 2022-09-05 07:20:09

為什么 grad 對於 gpu 中的張量不可用

問題描述

1 個解決方案

解決方案1 1 2022-09-05 07:20:09

解決方案1
1 2022-09-05 07:20:09