繁体   English   中英

解决SLURM“sbatch:错误:批量作业提交失败:请求的节点配置不可用”错误

[英]Solving SLURM "sbatch: error: Batch job submission failed: Requested node configuration is not available" error

我们的本地集群有 4 个 GPU 节点,其中包含 2 个 36 核 CPU 和 200 GB 的 RAM。 当我尝试使用以下配置提交作业时:

#SBATCH --nodes=1
#SBATCH --ntasks=40
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=1500MB
#SBATCH --gres=gpu:4
#SBATCH --time=0-10:00:00

我收到以下错误:

sbatch:错误:批处理作业提交失败:请求的节点配置不可用

此错误的原因可能是什么? 节点具有我需要的那种硬件......

CPU 很可能是 36 线程而不是 36 核,并且 Slurm 可能配置为分配内核而不是线程。

检查scontrol show nodes的输出以查看节点真正提供的内容。

您在具有 36 个 CPU 的节点上请求 40 个任务。 默认的 SLURM 配置将任务绑定到核心,因此将任务减少到 36 或更少可能会起作用。 (或者将节点增加到 2,如果您的应用程序可以处理)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM