[英]PyTorch nn.Linear layer output nan on well formed input and weights
(回復bug: https : //github.com/zihualiu/pytorch_linear_bug )
我最近在Pytorch遇到了一個奇怪的錯誤,我希望你能幫助我。 在我的一個網絡中,我有一個完全連接的層,表示為net.fc_h1。 然而,在訓練期間,我意識到該層在激活之前輸出NaN。 所以我把它放在pdb中,希望它會讓我產生一些東西。 以下是日志:
# in network declaration:
def forward(self, obs):
z1 = self.fc_h1(obs)
if np.isnan(np.sum(z1.data.numpy())):
pdb.set_trace()
h1 = F.tanh(z1)
...
確實捕獲了NaN,但我在pdb中意識到如果再次運行該操作,結果將是顯着的:
(Pdb) z1.sum()
Variable containing:
nan
[torch.FloatTensor of size 1]
(Pdb) self.fc_h1(obs).sum()
Variable containing:
771.5120
[torch.FloatTensor of size 1]
當我檢查我的輸入或權重是否包含NaN時,我得到以下內容:(Pdb)self.fc_h1.weight.max()包含變量的變量:0.2482 [大小為1的torch.FloatTensor]
(Pdb) self.fc_h1.weight.mean()
Variable containing:
1.00000e-03 *
1.7761
[torch.FloatTensor of size 1]
(Pdb) self.fc_h1.weight.min()
Variable containing:
-0.2504
[torch.FloatTensor of size 1]
(Pdb) obs.max()
Variable containing:
6.9884
[torch.FloatTensor of size 1]
(Pdb) obs.min()
Variable containing:
-6.7855
[torch.FloatTensor of size 1]
(Pdb) obs.mean()
Variable containing:
1.00000e-02 *
-1.5033
[torch.FloatTensor of size 1]
(Pdb) self.fc_h1.bias.max()
Variable containing:
0.2482
[torch.FloatTensor of size 1]
(Pdb) self.fc_h1.bias.mean()
Variable containing:
1.00000e-03 *
3.9104
[torch.FloatTensor of size 1]
(Pdb) self.fc_h1.bias.min()
Variable containing:
-0.2466
[torch.FloatTensor of size 1]
看來輸入,重量和偏見都很好。 如果一切形成良好,線性層如何產生NaN的任何見解?
編輯:更奇怪所以我試圖再次運行前鋒傳球,有趣的是,多次前鋒傳球給了我不同的結果:
(Pdb) self.fc_h1(obs)
Variable containing:
2.2321e-01 -6.2586e-01 -1.9004e-01 ... -4.2521e-01 8.6175e-01 8.6866e-01
-7.2699e-02 7.8234e-01 -5.8862e-01 ... 2.4041e-01 -1.7577e-01 6.9928e-01
-7.2699e-02 7.8234e-01 -5.8862e-01 ... 2.4041e-01 -1.7577e-01 6.9928e-01
... ⋱ ...
-6.4686e-02 -1.5819e+00 5.7410e-01 ... -6.4127e-01 5.2837e-01 -1.3166e+00
3.9214e-01 2.8727e-01 -5.5699e-01 ... -8.3164e-01 -5.1795e-01 -3.7637e-01
-9.6061e-01 1.4780e-01 5.3614e-02 ... -1.5042e+00 6.0759e-02 -3.6862e-01
[torch.FloatTensor of size 4096x170]
(Pdb) self.fc_h1(obs)
Variable containing:
2.2321e-01 -6.2586e-01 -1.9004e-01 ... -4.2521e-01 8.6175e-01 8.6866e-01
-7.2699e-02 7.8234e-01 -5.8862e-01 ... 2.4041e-01 -1.7577e-01 6.9928e-01
-7.2699e-02 7.8234e-01 -5.8862e-01 ... 2.4041e-01 -1.7577e-01 6.9928e-01
... ⋱ ...
nan nan nan ... nan 5.2837e-01 -1.3166e+00
nan nan nan ... nan -5.1795e-01 -3.7637e-01
nan nan nan ... nan 6.0759e-02 -3.6862e-01
[torch.FloatTensor of size 4096x170]
我也沒有使用GPU,只是CPU。
對我來說,我正在復制RNN名稱分類示例中的代碼。 我添加了優化器和標准模式,而示例是手動操作並手動更新權重。 我不小心為優化器添加了一個動量值,這就是造成我問題的原因。 將動量設置為默認值0
固定它。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.