簡體   English   中英

2個GPU的NVIDIA主機上,SLURM下srun命令兩個遠程用戶如何各用一個gpu

[英]On an NVIDIA host with 2 GPUs, how can two remote users use one gpu each by srun command under SLURM

我有一台帶 2 個 GPU 的 NVIDIA 主機,有兩個不同的遠程用戶需要在該主機上使用 GPU。 當每個人都通過 SLURM 管理的 srun 執行任務時,其中一個會立即釋放 GPU 資源,但另一個會留在隊列中等待資源。 但是有兩個GPU。 為什么不是每個人都得到一個 GPU? 我已經嘗試了幾種選擇,它們在參數中,但似乎在使用 SRUN 時,以交互形式,設法執行他的工作的人擁有機器的整個域,直到他完成他的工作。

假設 Slurm 已正確配置為允許節點共享( SelectType 選項),並將 GPU 作為通用資源進行管理( GresType 選項),您可以使用scontrol show node並比較AllocTRESCfgTRES輸出。

這將顯示可用的資源並找出作業 2 掛起的原因。 也許作業 1 使用了參數--exclusive 也許作業 1 請求所有 CPU 或所有 memory? 也許作業 1 請求了所有 GPU? 等等

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM