僅在本地 GPU 上的低 CNN 精度

Question

出於某種原因，我所有的卷積神經網絡的准確性都非常差。 不管 model 編譯。 這是在本地機器上使用 RTX 3060 TI GPU 和 CUDA 11.1 的 jupyter 筆記本。

當我使用 Google Colab 時，我的所有代碼都能以高精度正常工作。 應該注意的是，這僅適用於卷積神經網絡。 只有密集連接層的神經網絡可以正常工作。

一些細節：

Tensor Flow Version: 2.1.0
Keras Version: 2.2.4-tf

Python 3.7.9 (default, Aug 31 2020, 17:10:11) [MSC v.1916 64 bit (AMD64)]
Pandas 1.2.0
Scikit-Learn 0.24.0
GPU is available

這是一個示例代碼（二進制分類 50/50 拆分）：

from tensorflow.keras import layers
from tensorflow.keras import models
from tensorflow.keras import optimizers
from tensorflow.keras.preprocessing.image import ImageDataGenerator

model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu',input_shape=(150, 150, 3)))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Flatten())
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))
model.compile(loss='binary_crossentropy', optimizer = optimizers.RMSprop(lr=1e-6), #decrease learning rate
             metrics=['accuracy'])
train_datagen = ImageDataGenerator(rescale=1./255)
test_datagen = ImageDataGenerator(rescale=1./255)
train_generator = train_datagen.flow_from_directory(train_dir,target_size=(150, 150),batch_size=20,
class_mode='binary')
validation_generator = test_datagen.flow_from_directory(validation_dir,target_size=(150, 150),
batch_size=20, class_mode='binary')
history = model.fit_generator(
train_generator,
steps_per_epoch=100,
epochs=30,
validation_data=validation_generator,
validation_steps=50)

結果

WARNING:tensorflow:From <ipython-input-8-f61a1535c537>:6: Model.fit_generator (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
Instructions for updating:
Please use Model.fit, which supports generators.
WARNING:tensorflow:sample_weight modes were coerced from
  ...
    to  
  ['...']
WARNING:tensorflow:sample_weight modes were coerced from
  ...
    to  
  ['...']
Train for 100 steps, validate for 50 steps
Epoch 1/30
100/100 [==============================] - 1158s 12s/step - loss: 0.7020 - accuracy: 0.4945 - val_loss: 0.8541 - val_accuracy: 0.4980
Epoch 2/30
100/100 [==============================] - 5s 47ms/step - loss: 0.6987 - accuracy: 0.5105 - val_loss: 0.6930 - val_accuracy: 0.5000 2s - loss: 0.6931 - accura - ETA: 2s - loss: 0.6931 - accura - ETA: 1s - loss: 0.6931  - ETA: 1s - loss: 0.6926 - accuracy: 0. - ETA: 1s - loss: 0.6939 - accuracy - ETA: 0s - los
Epoch 3/30
100/100 [==============================] - 5s 47ms/step - loss: 0.7000 - accuracy: 0.4985 - val_loss: 0.8449 - val_accuracy: 0.5000s - loss: 0.6983 - accuracy - ETA: 0s - loss:
Epoch 4/30
100/100 [==============================] - 5s 47ms/step - loss: 0.6967 - accuracy: 0.4975 - val_loss: 0.7162 - val_accuracy: 0.4800
Epoch 5/30
100/100 [==============================] - 5s 47ms/step - loss: 0.6931 - accuracy: 0.4945 - val_loss: 0.8477 - val_accuracy: 0.49900.6931 - accura - ETA: 0s - loss: 0.6931 - ac - ETA: 0s - loss: 0.6931 - 
Epoch 6/30
100/100 [==============================] - 5s 47ms/step - loss: 0.6931 - accuracy: 0.4895 - val_loss: 0.7846 - val_accuracy: 0.5000: 0.6931 - ac
Epoch 7/30
100/100 [==============================] - 5s 47ms/step - loss: 0.6933 - accuracy: 0.4860 - val_loss: 0.7468 - val_accuracy: 0.5000- ETA: 1s - loss: 0.6 - ETA: 0s - loss: 0.6938

Answer 1

我不使用 Colab，所以不確定為什么它在那里訓練得很好，也許它使用了不同版本的 tensorflow。 在 model.fit 中，您設置 steps_per_epoch 和 validation_steps 的值。 我發現最好將這些保留為無。 Model.fit 將自動確定正確的值。 此外 model.fit_generator 正在折舊，因此請改用 model.fit 。 您的學習率很小，我會嘗試類似.001。 我在具有兩個類的圖像數據集上運行了您的代碼，model 確實進行了訓練，但在 lr=1e-6 時收斂速度很慢。 在 0.001 的學習率下，它收斂得更快，在 3 個 epoch 中獲得了相同的准確度（大約 81%），而在 30 個 epoch 中達到了小學習率。 我正在使用 tensorflow 2.1 並且沒有問題讓您的代碼處理上述異常。 我認為問題可能是您使用的是 CUDA 11.1。 我相信對於 tensorflow 2.1，您應該使用 10.1。 您應該安裝了 cudatoolkit 10.1.243 和 cudnn 7.65

Answer 2

出於某種原因，運行此代碼可以解決所有問題。 有人可以解釋一下原因嗎？ 謝謝

import tensorflow as tf
gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
    try:
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)

    except RuntimeError as e:
        print(e)

僅在本地 GPU 上的低 CNN 精度

問題描述

2 個解決方案

解決方案1
0 2021-01-13 04:43:16

解決方案2
0 已采納 2021-01-13 11:14:47

僅在本地 GPU 上的低 CNN 精度

問題描述

2 個解決方案

解決方案1 0 2021-01-13 04:43:16

解決方案2 0 已采納 2021-01-13 11:14:47

解決方案1
0 2021-01-13 04:43:16

解決方案2
0 已采納 2021-01-13 11:14:47