[英]SLURM: After allocating all GPUs no more cpu job can be submitted
我们刚刚开始使用 slurm 来管理我们的 GPU(目前只有 2 个)。 我们使用 ubuntu 14.04 和 slurm-llnl。 我已经配置了 gres.conf 和srun
工作。 问题是,如果我使用--gres=gpu:1
运行两个作业,那么两个 GPU 将成功分配并且作业开始运行; 现在我希望能够在没有--gres=gpu:1
情况下运行更多的工作(除了 2 个 GPU 工作)(即工作而不是只使用 CPU 和内存),但这是不可能的。
错误消息说它无法分配所需的资源(即使有 24 个 CPU 内核)。
这是我的 gres.conf:
Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]
我很感激任何帮助。 谢谢你。
确保SelectType
在你的配置是CR_CPU
或CR_Core
并且shared
分区的选项未设置为exclusive
。 否则 Slurm 会将完整节点分配给作业。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.