簡體   English   中英

如何在多個 GPU 的 Pytorch 示例中利用 DistributedDataParallel 的世界大小參數?

[英]How to leverage the world-size parameter for DistributedDataParallel in Pytorch example for multiple GPUs?

我在g2.2xlarge AWS 機器上運行這個 Pytorch 示例 因此,當我運行time python imageNet.py ImageNet2 ,它在以下時間運行良好:

real    3m16.253s
user    1m50.376s
sys 1m0.872s

但是,當我添加world-size參數時,它會卡住並且不執行任何操作。 命令如下: time python imageNet.py --world-size 2 ImageNet2

那么,我如何利用此腳本中的world-size參數來利用DistributedDataParallel功能。 world-size 參數只不過是分布式進程的數量

我是否為此啟動了另一個類似的實例? 如果是,那么腳本如何識別實例? 我是否需要添加一些參數,例如實例的 IP 之類的?

World size 參數是分布式訓練中的節點數,因此如果將 world size 設置為 2,則需要在另一個節點上以不同的等級運行相同的命令。 如果您只想增加單個節點上的 GPU 數量,則需要更改ngpus_per_node 查看此自述文件中的多節點示例。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM