[英]TensorFlow: Is it possible to restore checkpoint models for multi-gpu training?
[英]Training Multi-GPU on Tensorflow: a simpler way?
我一直在使用cifar10_multi_gpu_train示例中提出的训练方法进行(本地)多gpu训练,即创建多个塔然后平均梯度。 但是,我想知道以下几点:如果我只接受来自不同GPU的损失,将其求和,然后对新损失应用梯度下降,会发生什么情况。
那行得通吗? 可能这是一个愚蠢的问题,并且在某处必须有一个限制。 因此,如果您可以对此发表评论,我将非常高兴。
谢谢您,G.
总和不起作用。 您将获得更大的损失,从而导致更大的梯度并且可能是错误的梯度。 在对梯度求平均时,您将获得权重所采用的方向的平均值,以最大程度地减少损失,但是每个方向都是针对确切损失值计算的。
您可以尝试的一件事是独立运行塔,然后不时平均权重,收敛速度较慢,但每个节点的处理速度更快。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.