TensorFlow2 - Model 子類化 ValueError

Question

我正在嘗試使用 TensorFlow 2 的 model 子分類創建 LeNet-300-100 密集神經網絡。 我擁有的代碼如下：

batch_size = 32
num_epochs = 20


# Load MNIST dataset-
(X_train, y_train), (X_test, y_test) = tf.keras.datasets.mnist.load_data()

X_train = X_train.astype('float32') / 255.0
X_test = X_test.astype('float32') / 255.0

# Convert class vectors/target to binary class matrices or one-hot encoded values-
y_train = tf.keras.utils.to_categorical(y_train, num_classes)
y_test = tf.keras.utils.to_categorical(y_test, num_classes)

X_train.shape, y_train.shape
# ((60000, 28, 28), (60000, 10))

X_test.shape, y_test.shape
# ((10000, 28, 28), (10000, 10)) 




class LeNet300(Model):
    def __init__(self, **kwargs):
        super(LeNet300, self).__init__(**kwargs)
        
        self.flatten = Flatten()
        self.dense1 = Dense(units = 300, activation = 'relu')
        self.dense2 = Dense(units = 100, activation = 'relu')
        self.op = Dense(units = 10, activation = 'softmax')

    def call(self, inputs):
        x = self.flatten(inputs)
        x = self.dense1(x)
        x = self.dense2(x)
        return self.op(x)




# Instantiate an object using LeNet-300-100 dense model-
model = LeNet300()

# Compile the defined model-
model.compile(
        optimizer=tf.keras.optimizers.Adam(),
        loss=tf.keras.losses.SparseCategoricalCrossentropy(),
        metrics=['accuracy']
        )


# Define early stopping callback-
early_stopping_callback = tf.keras.callbacks.EarlyStopping(
        monitor = 'val_loss', min_delta = 0.001,
        patience = 3)

# Train defined and compiled model-
history = model.fit(
    x = X_train, y = y_train,
    batch_size = batch_size, shuffle = True,
    epochs = num_epochs,
    callbacks = [early_stopping_callback],
    validation_data = (X_test, y_test)
    )

在調用“model.fit()”時，會出現以下錯誤：

ValueError：形狀不匹配：標簽的形狀（收到的 (320,)）應該等於 logits 的形狀，除了最后一個維度（收到的 (32, 10)）。

怎么了？

謝謝

Answer 1

損失SparseCategoricalCrossentropy不采用 one-hot encoding 來計算損失。 在文檔中，他們提到

當有兩個或更多 label 類時，使用此交叉熵損失 function。 我們希望標簽以整數形式提供。 如果您想使用 one-hot 表示提供標簽，請使用 CategoricalCrossentropy 損失。 對於 y_pred，每個特征應該有 # 個類浮點值，對於 y_true，每個特征應該有一個浮點值。

因此，您會收到錯誤消息。 如果您觀察堆棧跟蹤，則會在丟失 function 中出現錯誤，

    /home/ubuntu/.local/lib/python3.6/site-packages/tensorflow/python/keras/losses.py:1569 sparse_categorical_crossentropy
        y_true, y_pred, from_logits=from_logits, axis=axis)
    /home/ubuntu/.local/lib/python3.6/site-packages/tensorflow/python/util/dispatch.py:201 wrapper
        return target(*args, **kwargs)
    /home/ubuntu/.local/lib/python3.6/site-packages/tensorflow/python/keras/backend.py:4941 sparse_categorical_crossentropy
        labels=target, logits=output)
    /home/ubuntu/.local/lib/python3.6/site-packages/tensorflow/python/util/dispatch.py:201 wrapper
        return target(*args, **kwargs)
    /home/ubuntu/.local/lib/python3.6/site-packages/tensorflow/python/ops/nn_ops.py:4241 sparse_softmax_cross_entropy_with_logits_v2
        labels=labels, logits=logits, name=name)
    /home/ubuntu/.local/lib/python3.6/site-packages/tensorflow/python/util/dispatch.py:201 wrapper
        return target(*args, **kwargs)
    /home/ubuntu/.local/lib/python3.6/site-packages/tensorflow/python/ops/nn_ops.py:4156 sparse_softmax_cross_entropy_with_logits
        logits.get_shape()))

    ValueError: Shape mismatch: The shape of labels (received (320,)) should equal the shape of logits except for the last dimension (received (32, 10)).

我建議使用CategoricalCrossentropy 。

Answer 2

這是因為第一個密集層的輸入應該被展平。 MNIST 數據的每個數字都有 28x28 的網格/圖像。 這個 28x28 的數據應該被展平為 784 個輸入數字。

所以就在第一個Dense(...)層之前插入Flatten() keras 層，即做Flatten()(inputs) 。

請參閱此 Flatten 圖層文檔以供參考。

TensorFlow2 - Model 子類化 ValueError

問題描述

2 個解決方案

解決方案1
1 已采納 2020-12-18 15:38:18

解決方案2
0 2020-12-18 12:42:24

TensorFlow2 - Model 子類化 ValueError

問題描述

2 個解決方案

解決方案1 1 已采納 2020-12-18 15:38:18

解決方案2 0 2020-12-18 12:42:24

解決方案1
1 已采納 2020-12-18 15:38:18

解決方案2
0 2020-12-18 12:42:24