[英]TensorFlow: Is it possible to restore checkpoint models for multi-gpu training?
[英]Training Multi-GPU on Tensorflow: a simpler way?
我一直在使用cifar10_multi_gpu_train示例中提出的訓練方法進行(本地)多gpu訓練,即創建多個塔然后平均梯度。 但是,我想知道以下幾點:如果我只接受來自不同GPU的損失,將其求和,然后對新損失應用梯度下降,會發生什么情況。
那行得通嗎? 可能這是一個愚蠢的問題,並且在某處必須有一個限制。 因此,如果您可以對此發表評論,我將非常高興。
謝謝您,G.
總和不起作用。 您將獲得更大的損失,從而導致更大的梯度並且可能是錯誤的梯度。 在對梯度求平均時,您將獲得權重所采用的方向的平均值,以最大程度地減少損失,但是每個方向都是針對確切損失值計算的。
您可以嘗試的一件事是獨立運行塔,然后不時平均權重,收斂速度較慢,但每個節點的處理速度更快。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.