Keras - 驗證損失和准確性停留在 0

Question

我正在嘗試在 Tensorflow keras 中為二進制分類訓練一個簡單的 2 層全連接神經網絡。 我使用 sklearn 的train_test_split()將我的數據拆分為 80-20 拆分的訓練和驗證集。

當我調用model.fit(X_train, y_train, validation_data=[X_val, y_val])時，它顯示所有 epochs 的驗證損失和准確性為 0 ，但它訓練得很好。

此外，當我嘗試在驗證集上對其進行評估時，output 不為零。

有人可以解釋為什么我在驗證時遇到這個 0 loss 0 accuracy 錯誤。 謝謝你的幫助。

以下是此錯誤的完整示例代碼 (MCVE)： https://colab.research.google.com/drive/1P8iCUlnD87vqtuS5YTdoePcDOVEKpBHr?usp=sharing

Answer 1

如果您使用keras而不是tf.keras一切正常。
使用tf.keras ，我什至嘗試了validation_data = [X_train, y_train] ，這也給出了零精度。

這是一個演示：

model.fit(X_train, y_train, validation_data=[X_train.to_numpy(), y_train.to_numpy()], 
epochs=10, batch_size=64)

Epoch 1/10
8/8 [==============================] - 0s 6ms/step - loss: 0.7898 - accuracy: 0.6087 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 2/10
8/8 [==============================] - 0s 6ms/step - loss: 0.6710 - accuracy: 0.6500 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 3/10
8/8 [==============================] - 0s 5ms/step - loss: 0.6748 - accuracy: 0.6500 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 4/10
8/8 [==============================] - 0s 6ms/step - loss: 0.6716 - accuracy: 0.6370 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 5/10
8/8 [==============================] - 0s 6ms/step - loss: 0.6085 - accuracy: 0.6326 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 6/10
8/8 [==============================] - 0s 6ms/step - loss: 0.6744 - accuracy: 0.6326 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 7/10
8/8 [==============================] - 0s 6ms/step - loss: 0.6102 - accuracy: 0.6522 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 8/10
8/8 [==============================] - 0s 6ms/step - loss: 0.7032 - accuracy: 0.6109 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 9/10
8/8 [==============================] - 0s 5ms/step - loss: 0.6283 - accuracy: 0.6717 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 10/10
8/8 [==============================] - 0s 5ms/step - loss: 0.6120 - accuracy: 0.6652 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00

所以，肯定存在tensorflow實現fit的一些問題。

我挖掘了源代碼，似乎是負責validation_data的部分：

...
...
        # Run validation.
        if validation_data and self._should_eval(epoch, validation_freq):
          val_x, val_y, val_sample_weight = (
              data_adapter.unpack_x_y_sample_weight(validation_data))
          val_logs = self.evaluate(
              x=val_x,
              y=val_y,
              sample_weight=val_sample_weight,
              batch_size=validation_batch_size or batch_size,
              steps=validation_steps,
              callbacks=callbacks,
              max_queue_size=max_queue_size,
              workers=workers,
              use_multiprocessing=use_multiprocessing,
              return_dict=True)
          val_logs = {'val_' + name: val for name, val in val_logs.items()}
          epoch_logs.update(val_logs)

內部調用model.evaluate ，因為我們已經建立了evaluate工作正常，我意識到唯一的罪魁禍首可能是unpack_x_y_sample_weight 。

所以，我研究了實現：

def unpack_x_y_sample_weight(data):
  """Unpacks user-provided data tuple."""
  if not isinstance(data, tuple):
    return (data, None, None)
  elif len(data) == 1:
    return (data[0], None, None)
  elif len(data) == 2:
    return (data[0], data[1], None)
  elif len(data) == 3:
    return (data[0], data[1], data[2])

  raise ValueError("Data not understood.")

這太瘋狂了，但是如果你只傳遞一個元組而不是一個列表，那么由於unpack_x_y_sample_weight內部的檢查，一切都會正常工作。 （在此步驟之后您的標簽丟失了，並且不知何故數據在evaluate內部得到修復，因此您在沒有合理標簽的情況下進行訓練，這似乎是一個錯誤，但文檔明確指出要傳遞元組）

以下代碼給出了正確的驗證准確性和損失：

model.fit(X_train, y_train, validation_data=(X_train.to_numpy(), y_train.to_numpy()), 
epochs=10, batch_size=64)

Epoch 1/10
8/8 [==============================] - 0s 7ms/step - loss: 0.5832 - accuracy: 0.6696 - val_loss: 0.6892 - val_accuracy: 0.6674
Epoch 2/10
8/8 [==============================] - 0s 7ms/step - loss: 0.6385 - accuracy: 0.6804 - val_loss: 0.8984 - val_accuracy: 0.5565
Epoch 3/10
8/8 [==============================] - 0s 7ms/step - loss: 0.6822 - accuracy: 0.6391 - val_loss: 0.6556 - val_accuracy: 0.6739
Epoch 4/10
8/8 [==============================] - 0s 6ms/step - loss: 0.6276 - accuracy: 0.6609 - val_loss: 1.0691 - val_accuracy: 0.5630
Epoch 5/10
8/8 [==============================] - 0s 7ms/step - loss: 0.7048 - accuracy: 0.6239 - val_loss: 0.6474 - val_accuracy: 0.6326
Epoch 6/10
8/8 [==============================] - 0s 7ms/step - loss: 0.6545 - accuracy: 0.6500 - val_loss: 0.6659 - val_accuracy: 0.6043
Epoch 7/10
8/8 [==============================] - 0s 7ms/step - loss: 0.5796 - accuracy: 0.6913 - val_loss: 0.6891 - val_accuracy: 0.6435
Epoch 8/10
8/8 [==============================] - 0s 7ms/step - loss: 0.5915 - accuracy: 0.6891 - val_loss: 0.5307 - val_accuracy: 0.7152
Epoch 9/10
8/8 [==============================] - 0s 7ms/step - loss: 0.5571 - accuracy: 0.7000 - val_loss: 0.5465 - val_accuracy: 0.6957
Epoch 10/10
8/8 [==============================] - 0s 7ms/step - loss: 0.7133 - accuracy: 0.6283 - val_loss: 0.7046 - val_accuracy: 0.6413

因此，由於這似乎是一個錯誤，我剛剛在 Tensorflow Github 回購中打開了一個相關問題：

https://github.com/tensorflow/tensorflow/issues/39370

Answer 2

嘗試將 model.fit 中的損失從loss="categorical_crossentropy"更改為loss="binary_crossentropy"

我遇到了同樣的問題，並嘗試了上面的答案，但這對我有用。 The thing is that I have a binary classification model, with only 1 output node, not a multi-classification model with multiple output nodes, so loss="binary_crossentropy" is the appropriate loss function in this case.

Keras - 驗證損失和准確性停留在 0

問題描述

2 個解決方案

解決方案1
32 已采納 2020-05-10 04:49:21

解決方案2
0 2022-08-26 18:16:27

Keras - 驗證損失和准確性停留在 0

問題描述

2 個解決方案

解決方案1 32 已采納 2020-05-10 04:49:21

解決方案2 0 2022-08-26 18:16:27

解決方案1
32 已采納 2020-05-10 04:49:21

解決方案2
0 2022-08-26 18:16:27