簡體   English   中英

解決SLURM“sbatch:錯誤:批量作業提交失敗:請求的節點配置不可用”錯誤

[英]Solving SLURM "sbatch: error: Batch job submission failed: Requested node configuration is not available" error

我們的本地集群有 4 個 GPU 節點,其中包含 2 個 36 核 CPU 和 200 GB 的 RAM。 當我嘗試使用以下配置提交作業時:

#SBATCH --nodes=1
#SBATCH --ntasks=40
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=1500MB
#SBATCH --gres=gpu:4
#SBATCH --time=0-10:00:00

我收到以下錯誤:

sbatch:錯誤:批處理作業提交失敗:請求的節點配置不可用

此錯誤的原因可能是什么? 節點具有我需要的那種硬件......

CPU 很可能是 36 線程而不是 36 核,並且 Slurm 可能配置為分配內核而不是線程。

檢查scontrol show nodes的輸出以查看節點真正提供的內容。

您在具有 36 個 CPU 的節點上請求 40 個任務。 默認的 SLURM 配置將任務綁定到核心,因此將任務減少到 36 或更少可能會起作用。 (或者將節點增加到 2,如果您的應用程序可以處理)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM