![](/img/trans.png)
[英]GPU allocation in Slurm: --gres vs --gpus-per-task, and mpirun vs srun
[英]On an NVIDIA host with 2 GPUs, how can two remote users use one gpu each by srun command under SLURM
我有一台带 2 个 GPU 的 NVIDIA 主机,有两个不同的远程用户需要在该主机上使用 GPU。 当每个人都通过 SLURM 管理的 srun 执行任务时,其中一个会立即释放 GPU 资源,但另一个会留在队列中等待资源。 但是有两个GPU。 为什么不是每个人都得到一个 GPU? 我已经尝试了几种选择,它们在参数中,但似乎在使用 SRUN 时,以交互形式,设法执行他的工作的人拥有机器的整个域,直到他完成他的工作。
假设 Slurm 已正确配置为允许节点共享( SelectType 选项),并将 GPU 作为通用资源进行管理( GresType 选项),您可以使用scontrol show node
并比较AllocTRES
和CfgTRES
输出。
这将显示可用的资源并找出作业 2 挂起的原因。 也许作业 1 使用了参数--exclusive
? 也许作业 1 请求所有 CPU 或所有 memory? 也许作业 1 请求了所有 GPU? 等等
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.