[英]How to leverage the world-size parameter for DistributedDataParallel in Pytorch example for multiple GPUs?
我在g2.2xlarge
AWS 機器上運行這個 Pytorch 示例。 因此,當我運行time python imageNet.py ImageNet2
,它在以下時間運行良好:
real 3m16.253s
user 1m50.376s
sys 1m0.872s
但是,當我添加world-size
參數時,它會卡住並且不執行任何操作。 命令如下: time python imageNet.py --world-size 2 ImageNet2
那么,我如何利用此腳本中的world-size
參數來利用DistributedDataParallel
功能。 world-size 參數只不過是分布式進程的數量。
我是否為此啟動了另一個類似的實例? 如果是,那么腳本如何識別實例? 我是否需要添加一些參數,例如實例的 IP 之類的?
World size 參數是分布式訓練中的節點數,因此如果將 world size 設置為 2,則需要在另一個節點上以不同的等級運行相同的命令。 如果您只想增加單個節點上的 GPU 數量,則需要更改ngpus_per_node
。 查看此自述文件中的多節點示例。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.