簡體   English   中英

TensorFlow:是否可以為多GPU訓練恢復檢查點模型?

[英]TensorFlow: Is it possible to restore checkpoint models for multi-gpu training?

我目前正在使用主管,並且僅使用TF-slim的預訓練權重構建了一張圖來進行轉移學習。 我想知道是否有一種方法可以在一開始就將檢查點模型還原到多個推理模型? 我主要關心的是,首先,在TF存儲庫上的參考代碼中定義的名稱范圍可能會由於名稱不匹配而導致無法恢復預訓練變量。 此外,鑒於我必須使用帶有init_fn的管理程序,該管理器僅使用一個可恢復變量的保護程序,我如何才能有多個保護程序將相同的變量恢復到多個GPU(如果我甚至根本需要多個保護程序) 。

我的一個想法是,也許我可以將變量還原到一個圖形,然后讓其他GPU使用相同的圖形進行訓練。 但是,是否僅在第一個GPU完成后才進行下一個GPU的培訓? 但是通過這種方式,除非我編輯檢查點權重的名稱,否則我也將無法根據原始檢查點模型變量名稱來恢復權重。

關於保存和恢復變量tensorflow文檔將您指向saver對象,允許您在構造saver時通過將字典從保存的名稱傳遞到變量對象來指定將哪些保存的變量恢復為模型變量。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM