簡體   English   中英

tensorflow slim 多 GPU 無法工作

[英]tensorflow slim multi-GPU can't work

目前我使用 tensorflow slim 從頭開始​​訓練模型。 如果我只是按照這里的說明https://github.com/tensorflow/models/tree/master/slim#training-a-model-from-scratch ,一切正常。

但是,我想使用多 GPU,所以我設置了 --num_clones=2 或 4,它們都不起作用。 結果兩個都卡在global_step/sec: 0,無法繼續。 您可以在此處查看結果圖像錯誤結果

DATASET_DIR=/tmp/imagenet
TRAIN_DIR=/tmp/train_logs
python train_image_classifier.py \
--num_clones=4 \
--train_dir=${TRAIN_DIR} \
--dataset_name=imagenet \
--dataset_split_name=train \
--dataset_dir=${DATASET_DIR} \
--model_name=inception_v3

希望有人可以幫助我,在此先感謝。 順便說一句,我在 Ubuntu 16.04 上使用 tensorflow 1.1 & python 35。 如果您需要更多信息,請告訴我。

您的問題類似於我使用 tf-slim 從單 GPU 切換到多 GPU 配置后的體驗。 我觀察到參數服務器作業采用名稱“localhost”,這與 model_deploy 分配給我的 CPU 設備的默認作業名稱沖突。 我建議您按照這篇 tensorflow.org 文章的“記錄設備放置”部分檢查設備名稱。 它解釋了如何在每個操作的基礎上將設備名稱打印到控制台。 然后,您可以將實際作業名稱作為參數傳遞給 DeployConfig() 的ps_job_name參數並繼續訓練。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM