简体   繁体   English

keras(tensorflow后端)使用Slurm在集群上运行

[英]keras (tensorflow backend) run on a cluster using slurm

I have the opportunity to run my Tensorflow training on a cluster computer with slurm workload manager (the cluster contains nearly 400000 cores, 40000 GB of RAM, Performance is Rmax=500 TFlop/s and Rpeak=1000 TFlop/s, AMD GPUs). 我有机会在带有slurm工作负载管理器的群集计算机上运行Tensorflow培训(群集包含近40万个内核,40000 GB RAM,性能为Rmax = 500 TFlop / s和Rpeak = 1000 TFlop / s,AMD GPU)。

I work on image processing projects using deep learning algorithms. 我从事使用深度学习算法的图像处理项目。

My question is how to scale my keras deep learning to run on this cluster using slurm as workload manager ? 我的问题是如何使用Slurm作为工作负载管理器来扩展我的keras深度学习在该集群上运行?

使用Horovod扩展Keras培训-https: //github.com/uber/horovod

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM