[英]How does pytorch compute the gradients for a simple linear regression model?
我正在使用pytorch并试图理解简单的线性回归模型是如何工作的。
我正在使用一个简单的LinearRegressionModel类:
class LinearRegressionModel(nn.Module):
def __init__(self, input_dim, output_dim):
super(LinearRegressionModel, self).__init__()
self.linear = nn.Linear(input_dim, output_dim)
def forward(self, x):
out = self.linear(x)
return out
model = LinearRegressionModel(1, 1)
接下来,我实例化一个损失标准和一个优化器
criterion = nn.MSELoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
最后训练模型我使用以下代码:
for epoch in range(epochs):
if torch.cuda.is_available():
inputs = Variable(torch.from_numpy(x_train).cuda())
if torch.cuda.is_available():
labels = Variable(torch.from_numpy(y_train).cuda())
# Clear gradients w.r.t. parameters
optimizer.zero_grad()
# Forward to get output
outputs = model(inputs)
# Calculate Loss
loss = criterion(outputs, labels)
# Getting gradients w.r.t. parameters
loss.backward()
# Updating parameters
optimizer.step()
我的问题是优化器如何获得由loss.backward()
计算的损耗梯度,以使用step()
方法更新参数? 模型,损失标准和优化器如何捆绑在一起?
PyTorch有这个张量和变量的概念。 当你使用nn.Linear时,函数会创建2个变量,即W和b。在pytorch中,变量是一个封装器,它封装了一个张量,它的渐变和有关其创建函数的信息。 你可以直接访问渐变
w.grad
当你在调用loss.backward()之前尝试它时,你得到None。 一旦你调用了loss.backward(),它现在将包含渐变。 现在,您可以使用以下简单步骤手动更新这些渐变。
w.data -= learning_rate * w.grad.data
当您拥有复杂的网络时,上述简单步骤可能会变得复杂。 所以像SGD这样的优化者,Adam会照顾到这一点。 为这些优化器创建对象时,我们会传入模型的参数。 nn.Module包含这个parameters()函数,它将所有可学习的参数返回给优化器。 可以使用以下步骤完成。
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
loss.backward()
计算渐变并将它们存储在参数中。 你传递了需要在这里调整的参数:
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.