[英]How exactly should I run distributed training with Tensorflow?
我有2台电脑。 我怎样才能对它们进行分布式训练并看到它的收敛速度快 2 倍? 我得到了“分布式示例” ,但这个“示例”不包含有关计算机设置的信息。 我得到了一些关于设置TF_CONFIG
的话,但同样,两台计算机应该做什么还很不清楚。 我无法在两台计算机上运行相同的脚本。 我希望一台计算机应该等待另一台计算机向它发送批次,但我没有看到任何线索,如何为此做准备......
我在一台电脑上写( calculon
)
os.environ["TF_CONFIG"] = json.dumps({
"cluster": {
"worker": ["calculon:2222", "lagrangian:2222"]
},
"task": {"type": "chief", "index": 0}
})
在另一台计算机上( lagrangian
)
os.environ["TF_CONFIG"] = json.dumps({
"cluster": {
"worker": ["calculon:2222", "lagrangian:2222"]
},
"task": {"type": "worker", "index": 1}
})
我应该在两台计算机上打开端口2222
吗? sctript 会在什么时候开始监听这个端口? “分布式示例”中的哪一行开始收听?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.