tensorflow slim 多 GPU 無法工作

Question

目前我使用 tensorflow slim 從頭開始訓練模型。 如果我只是按照這里的說明https://github.com/tensorflow/models/tree/master/slim#training-a-model-from-scratch ，一切正常。

但是，我想使用多 GPU，所以我設置了 --num_clones=2 或 4，它們都不起作用。 結果兩個都卡在global_step/sec: 0，無法繼續。 您可以在此處查看結果圖像錯誤結果

DATASET_DIR=/tmp/imagenet
TRAIN_DIR=/tmp/train_logs
python train_image_classifier.py \
--num_clones=4 \
--train_dir=${TRAIN_DIR} \
--dataset_name=imagenet \
--dataset_split_name=train \
--dataset_dir=${DATASET_DIR} \
--model_name=inception_v3

希望有人可以幫助我，在此先感謝。 順便說一句，我在 Ubuntu 16.04 上使用 tensorflow 1.1 & python 35。 如果您需要更多信息，請告訴我。

Answer 1

您的問題類似於我使用 tf-slim 從單 GPU 切換到多 GPU 配置后的體驗。 我觀察到參數服務器作業采用名稱“localhost”，這與 model_deploy 分配給我的 CPU 設備的默認作業名稱沖突。 我建議您按照這篇 tensorflow.org 文章的“記錄設備放置”部分檢查設備名稱。 它解釋了如何在每個操作的基礎上將設備名稱打印到控制台。 然后，您可以將實際作業名稱作為參數傳遞給 DeployConfig() 的ps_job_name參數並繼續訓練。

tensorflow slim 多 GPU 無法工作

問題描述

1 個解決方案

解決方案1
0 2017-11-14 02:40:48

tensorflow slim 多 GPU 無法工作

問題描述

1 個解決方案

解決方案1 0 2017-11-14 02:40:48

解決方案1
0 2017-11-14 02:40:48