[英]GPU allocation in Slurm: --gres vs --gpus-per-task, and mpirun vs srun
[英]On an NVIDIA host with 2 GPUs, how can two remote users use one gpu each by srun command under SLURM
我有一台帶 2 個 GPU 的 NVIDIA 主機,有兩個不同的遠程用戶需要在該主機上使用 GPU。 當每個人都通過 SLURM 管理的 srun 執行任務時,其中一個會立即釋放 GPU 資源,但另一個會留在隊列中等待資源。 但是有兩個GPU。 為什么不是每個人都得到一個 GPU? 我已經嘗試了幾種選擇,它們在參數中,但似乎在使用 SRUN 時,以交互形式,設法執行他的工作的人擁有機器的整個域,直到他完成他的工作。
假設 Slurm 已正確配置為允許節點共享( SelectType 選項),並將 GPU 作為通用資源進行管理( GresType 選項),您可以使用scontrol show node
並比較AllocTRES
和CfgTRES
輸出。
這將顯示可用的資源並找出作業 2 掛起的原因。 也許作業 1 使用了參數--exclusive
? 也許作業 1 請求所有 CPU 或所有 memory? 也許作業 1 請求了所有 GPU? 等等
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.