標簽[autograd] - 堆棧內存溢出

[英]How to compute the gradient of the output with respect to each input in pytorch

我有一個形狀張量 (number_of rays, number_of_points_per_ray, 3)，我們稱它為input 。 input通過 model 和一些處理（所有這些都是可微的）傳遞，我們稱這個過程為inference 。最后，我們得到output = inference(in ...

如何使用 PyTorch 優化器手動使用漸變而不是 autograd？

[英]How can I manually use gradients with PyTorch optimizers instead of autograd?

對於我目前正在使用的數據集，Autograd 似乎無法可靠地工作，我想通過 Torch 的 SGD 優化器使用手動計算的梯度。我已經編寫了顯式計算梯度的代碼，所以我知道梯度，但我不知道如何使用它們來代替 Torch 的自動梯度。特別是，我想執行以下操作： ...

DequantizeAndLinearBackward 的 Output 0 是一個視圖，正在就地修改。此視圖是在自定義 Function 和自動網格中創建的

[英]Output 0 of DequantizeAndLinearBackward is a view and is being modified inplace. This view was created inside a custom Function and the autogrid

我正在嘗試微調 GPT J，但出現此錯誤。我認為它與激活 function 有關並且它就位但我不知道如何對其進行編碼以修復它。是激活里面的參數function需要禁用嗎？如果有，是哪一個？提前謝謝你的幫助！ ...

Pytorch autograd function 向后是行不通的（這是 MmBackward 的 output 0，是版本 1；預期的版本是 0）

[英]Pytorch autograd function backward is doesn't work ( which is output 0 of MmBackward, is at version 1; expected version 0 instead)

我正在制作一個 model 混合微調剪輯 model 和凍結剪輯 model。我使用 kl_loss 和 CEE 進行自定義損失但是當我訓練 model 時，backward() function 不工作,,,,, 如何解決？ ...

如何在沒有上下文管理器的情況下使用 torch.profiler.profile？

[英]How do I use torch.profiler.profile without a context manager?

在pytorch autograd profiler 文檔中，它說分析器是“管理 autograd profiler state 並保存結果摘要的上下文管理器”。但是，在文檔的不同部分，它演示了一個非上下文管理器啟動/停止，它說它也受支持。然而，在 torch 1.9.0 中，這個啟動/停止選 ...

如何在 Pytorch 中“手動”應用漸變？

[英]How to "manually" apply your gradients in Pytorch?

tensorflow 中的 Pytorch 中的等價物是什么，其中loss是 .network 迭代中計算的損失，而net是神經網絡。因此，我們根據損失 function 計算 our.network 中所有可訓練變量的梯度。在下一行中，我們通過優化器應用梯度。在我的用例中，這是執行此操作的 ...

控制問題中的就地操作錯誤

[英]Inplace operation error in control problem

我是 pytorch 的新手，我在使用一些代碼來訓練神經網絡來解決控制問題時遇到了問題。我使用以下代碼來解決我的問題的玩具版本：# SOME IMPORTS import torch import torch.autograd as autograd from torch import Ten ...

我正在尋找 PyTorch 中 `.backward()` 方法的 `inputs` 參數的全面解釋

[英]I am looking for a comprehensive explanation of the `inputs` parameter of the `.backward()` method in PyTorch

我無法理解.backward()調用中inputs關鍵字的用法。文檔說明如下： inputs (sequence of Tensor) – 將梯度累積到.grad 中的輸入。所有其他張量將被忽略。如果未提供，則梯度將累積到用於計算 attr::tensors 的所有葉張量中。據我了解，這允 ...

無法修復 torch autograd 運行時錯誤：UNet 就地操作

[英]Can't fix torch autograd runtime error: UNet inplace operation

我無法修復運行時錯誤“梯度計算所需的變量之一已被就地操作修改。我知道，如果我注釋掉loss.backward()代碼將運行，但我不知道應該按什么順序調用函數以避免此錯誤當我用 Resnet50 將它稱為我的包裝器時，我沒有遇到任何問題，但是使用 Unet 時會發生 RuntimeError 正如評 ...

`jax.nn.softmax` 中停止梯度的目的？

[英]Purpose of stop gradient in `jax.nn.softmax`?

jax.nn.softmax定義為：def softmax(x: Array, axis: Optional[Union[int, Tuple[int, ...]]] = -1, where: Optional[Array] = None, ...

PyTorch 的 autograd 中關於跟蹤權重的澄清

[英]Clarification in PyTorch's autograd with respect to tracking weights

我正在閱讀來自 PyTorch 的博客。就在培訓部分的 AutoGrad之前，提到了請注意，只有計算的葉節點會計算其梯度。例如，如果您嘗試 print(c.grad)，您將返回 None。在這個簡單的例子中，只有輸入是葉節點，所以只有它計算了梯度。那么權重也被認為是葉節點。在隨后的Auto ...

如何為 torch.autograd.Function 實現自定義的前向/后向功能？

[英]How to implement a custom forward/backward function for torch.autograd.Function?

我想使用 pytorch 來優化目標函數，該函數使用 torch.autograd 無法跟蹤的操作。我用 torch.autograd.Function 類的自定義 forward() 包裝了此類操作（如此處和此處所建議）。因為我知道這種操作的梯度，所以我也可以寫 backward()。一切 ...

PyTorch L-BFGS 能否用於優化復雜參數？

[英]Can PyTorch L-BFGS be used to optimize a complex parameter?

簡單說明一下我的model：由ComplexDouble和形狀(20, 20, 20, 3)的單個參數X組成。作為參考，這一定很復雜，因為我需要對其執行 FFT 等 X用於計算實數標量值， Y為output 目標是使用 autograd 最小化Y的值來優化X的值。簡單的基於梯度下降的優化器， ...

無法在 JAX 中計算 lambda function 的簡單梯度

[英]Cannot compute simple gradient of lambda function in JAX

我正在嘗試計算涉及其他函數梯度的 lambda function 的梯度，但計算掛起，我不明白為什么。特別是，下面的代碼成功計算f_next ，但不是它的導數（倒數第二行和最后一行）。任何幫助，將不勝感激 ...

關於輸入的自動微分如何工作？

[英]How does automatic differentiation with respect to the input work?

我一直在嘗試了解自動微分 (autodiff) 的工作原理。在Tensorflow 、 PyTorch和其他程序中可以找到這方面的幾種實現。自動微分的三個方面目前對我來說似乎很模糊。用於計算梯度的確切過程 autodiff 如何處理輸入關於作為輸入的奇異值，autodiff 如何工作到目前為 ...

Pytorch 同時更新兩個型號

[英]Pytorch updating two models at the same time

我是 pytorch 的新手，在關注類似話題時運氣不佳。我正在嘗試在同一個循環中聯合訓練兩個模型，而 model 更新涉及不同的計算，該計算從 model_a 和 model_b 中吸收了一些組合損失。但是，我不確定 go 如何同時訓練它們。任何建議將不勝感激！我從上面得到的錯誤是根據某些 ...

錯誤：“其中一個微分張量似乎未在圖中使用”

[英]Error: "One of the differentiated Tensors appears to not have been used in the graph"

我正在嘗試計算 y_hat 到 x 的梯度（y_hat 是 model output 到 x 的梯度之和）但它給了我錯誤：其中一個微分張量似乎沒有在圖中使用。這是代碼：我認為x應該在計算圖中，所以我不知道為什么會給我這個錯誤？任何想法將不勝感激！ ...

`batch_size==32` 和 `batch_size==8, gradient_accumulation==4` 之間的性能差距

[英]Performance gap between `batch_size==32` and `batch_size==8, gradient_accumulation==4`

我嘗試在我的項目中使用梯度累積。據我了解，梯度累積與將批大小增加 x 倍相同。我在我的項目中嘗試了batch_size==32和batch_size==8, gradient_accumulation==4 ，但是即使我在數據加載器中禁用了shuffle ，結果也會有所不同。 batch_si ...

為什么 grad 對於 gpu 中的張量不可用

[英]Why the grad is unavailable for the tensor in gpu

執行代碼后， a.grad為None盡管a.requires_grad為True 。但是如果代碼a = a.cuda()被刪除， a.grad在 loss 后可用。 ...

自定義 torch.nn.Module 不學習，即使 grad_fn=MmBackward

[英]Custom torch.nn.Module not learning, even though grad_fn=MmBackward

我正在使用自定義Pytorch model 訓練 model 來預測姿勢。但是，下面的 V1 永遠不會學習（參數不會改變）。 output 連接到背景圖和grad_fn=MmBackward 。我不明白為什么V1不學習而V2是？ V1 但是，此版本按預期學習（參數和損失更改）並且在 out ...