[英]When training a model over multiple GPUs on the same machine using Pytorch, how is the batch size divided?
即使浏览 Pytorch 论坛,我仍然不确定这个。 假设我正在使用 Pytorch DDP在同一台机器上的4
GPU 上训练 model。
假设我选择的批量大小为8
。 model 理论上是每一步反向传播2
示例,我们看到的最终结果是针对批大小为2
的 model 训练的,还是 model 在每一步都收集梯度以从每个 GPU 获得结果并反向传播批量大小为8
?
实际批量大小是您提供给每个工作人员的输入大小,在您的情况下为 8。换句话说,BP 每 8 个示例运行一次。
具体代码示例: https://gist.github.com/sgraaf/5b0caa3a320f28c27c12b5efeb35aa4c#file-ddp_example-py-L63 。 这是批量大小。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.