繁体   English   中英

如何在多个 GPU 的 Pytorch 示例中利用 DistributedDataParallel 的世界大小参数?

[英]How to leverage the world-size parameter for DistributedDataParallel in Pytorch example for multiple GPUs?

我在g2.2xlarge AWS 机器上运行这个 Pytorch 示例 因此,当我运行time python imageNet.py ImageNet2 ,它在以下时间运行良好:

real    3m16.253s
user    1m50.376s
sys 1m0.872s

但是,当我添加world-size参数时,它会卡住并且不执行任何操作。 命令如下: time python imageNet.py --world-size 2 ImageNet2

那么,我如何利用此脚本中的world-size参数来利用DistributedDataParallel功能。 world-size 参数只不过是分布式进程的数量

我是否为此启动了另一个类似的实例? 如果是,那么脚本如何识别实例? 我是否需要添加一些参数,例如实例的 IP 之类的?

World size 参数是分布式训练中的节点数,因此如果将 world size 设置为 2,则需要在另一个节点上以不同的等级运行相同的命令。 如果您只想增加单个节点上的 GPU 数量,则需要更改ngpus_per_node 查看此自述文件中的多节点示例。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM