標簽[backpropagation] - 堆棧內存溢出

[英]Add values of one tensor to another without affecting the graph

我只是想將tensor2的第三維的前三個值添加到tensor1，而不影響反向傳播時的圖形。 Tensor2 只需要它的值，它不應該是圖表的一部分。這行得通嗎？這就是我在 numpy 中的做法。我應該更好地使用 torch.add() 還是 use.data？我對何時使用什么感到困惑。謝謝 ...

不可訓練層會參與其他層的反向傳播嗎？

[英]will non-trainable layer participate in backpropagation of other layers?

在下面的神經網絡中，第二層是不可訓練的。但是，在計算第一層的梯度時，第二層會參與嗎？總之，當一個層設置為不可訓練時，會不會影響其他層的梯度下降？ ...

使用 Pytorch 在同一台機器上的多個 GPU 上訓練 model 時，批量大小如何划分？

[英]When training a model over multiple GPUs on the same machine using Pytorch, how is the batch size divided?

即使瀏覽 Pytorch 論壇，我仍然不確定這個。假設我正在使用 Pytorch DDP在同一台機器上的4 GPU 上訓練 model。假設我選擇的批量大小為8 。 model 理論上是每一步反向傳播2示例，我們看到的最終結果是針對批大小為2的 model 訓練的，還是 model 在每一步 ...

幾個訓練時期后的神經網絡具有太大的 sigmoid 值並且不學習

[英]The neural network after several training epochs has too large sigmoid values and does not learn

我正在為 MNIST（不是卷積）實現一個完全連接的神經網絡。當我進行多次前向傳遞和反向傳遞時，我遇到了問題。指數變得異常高，python 無法計算它們。在我看來，我錯誤地注冊了 backward_pass。你能幫我嗎：這是.network設置：我的損失是 MSE： (1 / n_sample ...

在 pytorch 中向后實現一個 conv2d

[英]Implementing a conv2d backward in pytorch

我想實現 conv2d 的反向 function。這是線性 function 的示例：# Inherit from Function class LinearFunction(Function): @staticmethod # bias is an optional argu ...

Pytorch 由於“就地操作”而建立經驗緩沖區的問題

[英]Issues with building up an experience buffer in Pytorch due to "inplace operation"

到目前為止，我主要在 Tensorflow 中創建強化學習模型后，我正在玩 Pytorch。現在，當我想將“體驗緩沖區”又名“重播緩沖區”集成到我原本可以正常運行的代碼中時，我遇到了問題。我已經為我的問題建立了一個簡單的工作示例，希望你們中的一個人可以向我解釋我在 Pytorch 中遺漏/不完全 ...

控制問題中的就地操作錯誤

[英]Inplace operation error in control problem

我是 pytorch 的新手，我在使用一些代碼來訓練神經網絡來解決控制問題時遇到了問題。我使用以下代碼來解決我的問題的玩具版本：# SOME IMPORTS import torch import torch.autograd as autograd from torch import Ten ...

如何解釋反向傳播的計算圖？

[英]How to interpret computation graphs for back propagation?

我正在學習 Chollet 的《使用 Python 進行深度學習》，並且一直停留在計算圖應用程序上。我以前看過這本書，但意識到我需要多學一點數學，所以我剛剛完成了數據科學實用數學，學習了一些線性代數和微積分的基礎知識。回到 Chollet 的書，我被困在計算圖上。前向傳球非常有意義： x ...

Adam optimezer 是否在每一層更新權重？

[英]Is Adam optimezer updating weight in every layer?

我是神經網絡的新手，所以我對 ADAM optimezer 有點困惑。例如，我將 MLP 與這樣的架構一起使用：我之前用過SDG，所以想問一下用adam的優化改變權重和SDG更新每一層的權重是一樣的嗎？在上面的示例中，這是否意味着從輸出到隱藏層 2 將有 2 個權重變化，從隱藏層 2 到隱 ...

ValueError：形狀 (1,6) 和 (5,5) 未對齊：6 (dim 1) != 5 (dim 0)

[英]ValueError: shapes (1,6) and (5,5) not aligned: 6 (dim 1) != 5 (dim 0)

NN 必須有 5 個輸入、4 個隱藏層和 1 個 output。學習率 0.2，錯誤閾值 0.2。從 excel 中檢索數據：錯誤ValueError: shapes (1,6) and (5,5) not aligned: 6 (dim 1) != 5 (dim 0)正在顯示。我認為我 ...

如何為以下反向傳播 neural.network 創建報告

[英]How to create a report for below back-propagation neural network

我正在嘗試理解人工智能神經網絡並且我是自學者。希望有人能幫助我理解如何解決這個問題如果這篇文章應該張貼在這里。請發表評論而不是貶低帖子。對此也表示贊賞。我有一個問題，我對如何解決它感到完全困惑。我在網上遇到了這個問題，但無法理解如何解決。我在下面添加了問題。希望你能提供一些幫助。該數 ...

如何為多個 output function 制作自定義漸變？

[英]How to make a custom gradient for a multiple output function?

我想知道如何為具有多個輸出（或數組）的 function 編寫自定義漸變。舉個簡單的例子，我為 y=tan(x@w+b) 寫了下面的代碼，x 的形狀是 (2,3)，y 的形狀是 (2,2)。為了比較結果，我通過常規方式和自定義梯度計算了操作。這是代碼。代碼的結果給出了 y 和 y2 的不同 ...

我的反向傳播實施出了什么問題？

[英]What is going wrong in my backpropagation implementation?

我正在遵循實施神經網絡指南的 15 個步驟。我被困在第 12 步，其中描述了反向傳播實現。這是我編寫的（相關）代碼：這是我得到的 output：如您所見，我的weights_delta的形狀為(3,3) ，而我的weights的形狀為(5, 3) 。 weights 具有正確的形狀，因為 ...

在 PyTorch 中求解 Sylvester 方程

[英]Solving Sylvester equations in PyTorch

我正在嘗試解決以下形式的西爾維斯特矩陣方程 AX + XB = C 據我所見，這些方程通常用 Bartels-Stewart 算法求解，采用連續的 Schur 分解。我知道scipy.linalg已經有一個solve_sylvester function，但我正在將西爾維斯特方程的解集成到神經網絡 ...

自定義 torch.nn.Module 不學習，即使 grad_fn=MmBackward

[英]Custom torch.nn.Module not learning, even though grad_fn=MmBackward

我正在使用自定義Pytorch model 訓練 model 來預測姿勢。但是，下面的 V1 永遠不會學習（參數不會改變）。 output 連接到背景圖和grad_fn=MmBackward 。我不明白為什么V1不學習而V2是？ V1 但是，此版本按預期學習（參數和損失更改）並且在 out ...

DNN 參數子集的反向傳播成本

[英]Cost of back-propagation for subset of DNN parameters

我正在使用 pytorch 來評估前饋網絡的梯度，但僅針對與前兩層相關的參數子集。由於反向傳播是逐層進行的，我想知道：為什么它的計算速度比評估整個網絡的梯度要快？ ...

pytorch loss如何連接到model參數？

[英]How pytorch loss connect to model parameters?

我知道在 PyTorch 優化器通過以下方式連接到模型的參數在訓練循環中，我們必須通過執行這兩行來執行反向和更新梯度但是損失實際上是如何連接到 model 參數的呢？因為我們只定義了優化器和 model 之間的連接，而從未定義損失和 model 之間的連接。當我們執行loss.backwa ...

自建神經網絡

[英]Self-built Neural Network

我一直在嘗試自己構建一個簡單的神經網絡（3 層）來預測 MNIST 數據集。我在網上參考了一些代碼，自己寫了一些代碼，代碼運行沒有任何錯誤，但是學習過程有問題。訓練有素的網絡總是給我錯誤的預測，無論我作為輸入傳遞什么，一兩個類總是有很高的概率。我試圖找出問題所在，但幾天內沒有任何進展。誰能給 ...

在 C++ 中實現具有反向傳播的隱藏層神經網絡的最佳數據結構是什么？

[英]What are the optimal data structures for implementing a hidden layer neural network with backpropagation in C++?

抱歉，如果這看起來像是重復的帖子，但我想知道在 C++ 中實現和存儲具有權重和偏差以及反向傳播的簡單隱藏層神經網絡的最佳數據結構是什么。我突然想到以下幾點：鏈表指針數組出於這個目的，這兩個似乎與我差不多。我也經常看到人們使用 3D 數組/向量來存儲權重和偏差，但這對我來說似乎很浪費，因為您要 ...

tensorflow中的漸變膠帶可以區分同一網絡的嵌套函數嗎？

[英]Can gradient tape in tensorflow differentiate nested functions of the same network?

也就是說，如果我有一個可微分的 model g 和一個可微分的 function f（也可以包括模型）。 Tape.gradient 會在 g 上對 n 步應用反向傳播嗎？ ...