簡體   English   中英

SLURM:分配所有 GPU 后,無法再提交 CPU 作業

[英]SLURM: After allocating all GPUs no more cpu job can be submitted

我們剛剛開始使用 slurm 來管理我們的 GPU(目前只有 2 個)。 我們使用 ubuntu 14.04 和 slurm-llnl。 我已經配置了 gres.conf 和srun工作。 問題是,如果我使用--gres=gpu:1運行兩個作業,那么兩個 GPU 將成功分配並且作業開始運行; 現在我希望能夠在沒有--gres=gpu:1情況下運行更多的工作(除了 2 個 GPU 工作)(即工作而不是只使用 CPU 和內存),但這是不可能的。

錯誤消息說它無法分配所需的資源(即使有 24 個 CPU 內核)。

這是我的 gres.conf:

Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]

我很感激任何幫助。 謝謝你。

確保SelectType在你的配置是CR_CPUCR_Core並且shared分區的選項未設置為exclusive 否則 Slurm 會將完整節點分配給作業。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM