簡體   English   中英

Tensorflow-GPU 對象檢測 API 在第一次保存檢查點后卡住

[英]Tensorflow-GPU Object Detection API gets stuck after first saved checkpoint

我正在嘗試使用 Tensorflow 對象檢測 API 和 Tensorflow GPU 來訓練 SSD mobilenet v2。 訓練進展順利,直到第一個檢查點保存(經過數百個步驟后),在恢復最后一個檢查點后它會卡住。 GPU 使用率下降,永遠不會出現。 有時 Python 本身會崩潰。

我在 Windows 7 上運行 Tensorflow GPU,使用 NVIDIA Quadro M4000,使用 CUDA 8.0(我設法使用的唯一版本)。 該模型是使用 COCO 預訓練的 SSD Mobilenet v2,使用非常低的批次大小 4。

配置文件與 Tensorflow Model ZOO 中的配置文件相同,當然會更改路徑、批量大小、類數和步驟數,並在訓練部分添加 shuffle: true。

我正在添加出現的終端信息。 這就是它卡住的地方。

有人遇到過同樣的問題或知道為什么嗎?

提前致謝

在此處輸入圖片說明

我遇到了和你說的一樣的問題。 我等了很久,發現了一些有趣的東西。 我得到了一些評估結果。 之后的訓練過程繼續進行。 似乎評估過程花費了太多時間。 由於一開始沒有輸出,就像卡住了一樣。 也許更改參數 'sample_1_of_n_eval_examples' 會有所幫助。 我想...

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM