繁体   English   中英

2个GPU的NVIDIA主机上,SLURM下srun命令两个远程用户如何各用一个gpu

[英]On an NVIDIA host with 2 GPUs, how can two remote users use one gpu each by srun command under SLURM

我有一台带 2 个 GPU 的 NVIDIA 主机,有两个不同的远程用户需要在该主机上使用 GPU。 当每个人都通过 SLURM 管理的 srun 执行任务时,其中一个会立即释放 GPU 资源,但另一个会留在队列中等待资源。 但是有两个GPU。 为什么不是每个人都得到一个 GPU? 我已经尝试了几种选择,它们在参数中,但似乎在使用 SRUN 时,以交互形式,设法执行他的工作的人拥有机器的整个域,直到他完成他的工作。

假设 Slurm 已正确配置为允许节点共享( SelectType 选项),并将 GPU 作为通用资源进行管理( GresType 选项),您可以使用scontrol show node并比较AllocTRESCfgTRES输出。

这将显示可用的资源并找出作业 2 挂起的原因。 也许作业 1 使用了参数--exclusive 也许作业 1 请求所有 CPU 或所有 memory? 也许作业 1 请求了所有 GPU? 等等

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM