[英]Solving SLURM "sbatch: error: Batch job submission failed: Requested node configuration is not available" error
我们的本地集群有 4 个 GPU 节点,其中包含 2 个 36 核 CPU 和 200 GB 的 RAM。 当我尝试使用以下配置提交作业时:
#SBATCH --nodes=1
#SBATCH --ntasks=40
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=1500MB
#SBATCH --gres=gpu:4
#SBATCH --time=0-10:00:00
我收到以下错误:
sbatch:错误:批处理作业提交失败:请求的节点配置不可用
此错误的原因可能是什么? 节点具有我需要的那种硬件......
CPU 很可能是 36 线程而不是 36 核,并且 Slurm 可能配置为分配内核而不是线程。
检查scontrol show nodes
的输出以查看节点真正提供的内容。
您在具有 36 个 CPU 的节点上请求 40 个任务。 默认的 SLURM 配置将任务绑定到核心,因此将任务减少到 36 或更少可能会起作用。 (或者将节点增加到 2,如果您的应用程序可以处理)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.