繁体   English   中英

如何使用同一个 GPU 设备在 SLURM 中定义多个 gres 资源?

[英]How to define multiple gres resources in SLURM using the same GPU device?

我正在运行使用非常少的 GPU memory 的机器学习 (ML) 作业。 因此,我可以在单个 GPU 上运行多个 ML 作业。

为此,我想在 gres.conf 文件中添加多行来指定相同的设备。 但是,似乎 slurm 守护进程不接受这一点,服务返回:

fatal: Gres GPU plugin failed to load configuration

我是否缺少任何选项来完成这项工作?

或者也许是使用 SLURM 实现这一目标的不同方式?

它与这个有点相似,但这个似乎特定于某些启用编译的 CUDA 代码。 似乎比我的一般情况(或至少据我了解)更具体的东西。 如何使用 SLURM 在带有 CUDA 的 GPU 网格上运行多个作业

我不认为你可以超额订阅 GPU,所以我看到了两个选项:

  1. 您可以配置CUDA 多进程服务
  2. 将多个计算打包到具有一个 GPU 的单个作业中并并行运行它们。

除了@Marcus Boden 提到的与V100 类型卡相关的nVidia MPS,还有与A100 类型卡相关的Multi-Instance GPU

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM