PyTorch nn.Linear層輸出良好的輸入和權重

Question

（回復bug： https ： //github.com/zihualiu/pytorch_linear_bug ）

我最近在Pytorch遇到了一個奇怪的錯誤，我希望你能幫助我。 在我的一個網絡中，我有一個完全連接的層，表示為net.fc_h1。 然而，在訓練期間，我意識到該層在激活之前輸出NaN。 所以我把它放在pdb中，希望它會讓我產生一些東西。 以下是日志：

# in network declaration:
def forward(self, obs):
    z1 = self.fc_h1(obs)
    if np.isnan(np.sum(z1.data.numpy())):
        pdb.set_trace()
    h1 = F.tanh(z1)
    ...

確實捕獲了NaN，但我在pdb中意識到如果再次運行該操作，結果將是顯着的：

(Pdb) z1.sum()
Variable containing:
nan
[torch.FloatTensor of size 1]

(Pdb) self.fc_h1(obs).sum()
Variable containing:
771.5120
[torch.FloatTensor of size 1]

當我檢查我的輸入或權重是否包含NaN時，我得到以下內容：（Pdb）self.fc_h1.weight.max（）包含變量的變量：0.2482 [大小為1的torch.FloatTensor]

(Pdb) self.fc_h1.weight.mean()
Variable containing:
1.00000e-03 *
  1.7761
[torch.FloatTensor of size 1]

(Pdb) self.fc_h1.weight.min()
Variable containing:
-0.2504
[torch.FloatTensor of size 1]

(Pdb) obs.max()
Variable containing:
 6.9884
[torch.FloatTensor of size 1]

(Pdb) obs.min()
Variable containing:
-6.7855
[torch.FloatTensor of size 1]

(Pdb) obs.mean()
Variable containing:
1.00000e-02 *
 -1.5033
[torch.FloatTensor of size 1] 
(Pdb) self.fc_h1.bias.max()
Variable containing:
 0.2482
[torch.FloatTensor of size 1]

(Pdb) self.fc_h1.bias.mean()
Variable containing:
1.00000e-03 *
  3.9104
[torch.FloatTensor of size 1]

(Pdb) self.fc_h1.bias.min()
Variable containing:
-0.2466
[torch.FloatTensor of size 1]

看來輸入，重量和偏見都很好。 如果一切形成良好，線性層如何產生NaN的任何見解？

編輯：更奇怪所以我試圖再次運行前鋒傳球，有趣的是，多次前鋒傳球給了我不同的結果：

(Pdb) self.fc_h1(obs)
Variable containing:
 2.2321e-01 -6.2586e-01 -1.9004e-01  ...  -4.2521e-01  8.6175e-01  8.6866e-01
-7.2699e-02  7.8234e-01 -5.8862e-01  ...   2.4041e-01 -1.7577e-01  6.9928e-01
-7.2699e-02  7.8234e-01 -5.8862e-01  ...   2.4041e-01 -1.7577e-01  6.9928e-01
                ...                   ⋱                   ...
-6.4686e-02 -1.5819e+00  5.7410e-01  ...  -6.4127e-01  5.2837e-01 -1.3166e+00
 3.9214e-01  2.8727e-01 -5.5699e-01  ...  -8.3164e-01 -5.1795e-01 -3.7637e-01
-9.6061e-01  1.4780e-01  5.3614e-02  ...  -1.5042e+00  6.0759e-02 -3.6862e-01
[torch.FloatTensor of size 4096x170]

(Pdb) self.fc_h1(obs)
Variable containing:
 2.2321e-01 -6.2586e-01 -1.9004e-01  ...  -4.2521e-01  8.6175e-01  8.6866e-01
-7.2699e-02  7.8234e-01 -5.8862e-01  ...   2.4041e-01 -1.7577e-01  6.9928e-01
-7.2699e-02  7.8234e-01 -5.8862e-01  ...   2.4041e-01 -1.7577e-01  6.9928e-01
                ...                   ⋱                   ...
        nan         nan         nan  ...          nan  5.2837e-01 -1.3166e+00
        nan         nan         nan  ...          nan -5.1795e-01 -3.7637e-01
        nan         nan         nan  ...          nan  6.0759e-02 -3.6862e-01
[torch.FloatTensor of size 4096x170]

我也沒有使用GPU，只是CPU。

Answer 1

對我來說，我正在復制RNN名稱分類示例中的代碼。 我添加了優化器和標准模式，而示例是手動操作並手動更新權重。 我不小心為優化器添加了一個動量值，這就是造成我問題的原因。 將動量設置為默認值0固定它。

PyTorch nn.Linear層輸出良好的輸入和權重

問題描述

1 個解決方案

解決方案1
0 2018-10-16 19:40:28

PyTorch nn.Linear層輸出良好的輸入和權重

問題描述

1 個解決方案

解決方案1 0 2018-10-16 19:40:28

解決方案1
0 2018-10-16 19:40:28