繁体   English   中英

我应该如何使用 Tensorflow 进行分布式训练?

[英]How exactly should I run distributed training with Tensorflow?

我有2台电脑。 我怎样才能对它们进行分布式训练并看到它的收敛速度快 2 倍? 我得到了“分布式示例” ,但这个“示例”不包含有关计算机设置的信息。 我得到了一些关于设置TF_CONFIG的话,但同样,两台计算机应该做什么还很不清楚。 我无法在两台计算机上运行相同的脚本。 我希望一台计算机应该等待另一台计算机向它发送批次,但我没有看到任何线索,如何为此做准备......

我在一台电脑上写( calculon

os.environ["TF_CONFIG"] = json.dumps({
    "cluster": {
        "worker": ["calculon:2222", "lagrangian:2222"]
    },
   "task": {"type": "chief", "index": 0}
})

在另一台计算机上( lagrangian

os.environ["TF_CONFIG"] = json.dumps({
    "cluster": {
        "worker": ["calculon:2222", "lagrangian:2222"]
    },
   "task": {"type": "worker", "index": 1}
})

我应该在两台计算机上打开端口2222吗? sctript 会在什么时候开始监听这个端口? “分布式示例”中的哪一行开始收听?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM