如何在集群中通過 slurm 運行 python 腳本？

Question

在帶有 slurm 的服務器上配置 jupyter 的正確方法是什么？ 閱讀完文檔后，我正在像這樣通過 slurm 執行我的 python 腳本（我不確定這是否有效）：

$ srun -n 1 --time=02:00:00 --cpus-per-task=14 --mem=64gb --part=cluster-job --gres=gpu:rtx2080ti:1 python ./src/main.py

然后，我得到：

srun: job 2216877 queued and waiting for resources

當我做：

(base) [user@cluster ~]$ squeue -u user390284

我得到：

JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
2216877 cluster-job   python user390284 PD       0:00      1 (Resources)

這是運行我的腳本的正確方法嗎？ 當我檢查 htop 時，我沒有看到任何進程正在運行。 看來我的過程卡住了。 在我的腳本中使用 slurm 的正確方法是什么？

Answer 1

這是在具有 rtx2080ti GPU 的計算節點上請求交互式 session 的正確方法。 但正如 Slurm 告訴您的，您的作業已提交，並且srun將阻塞，直到 Slurm 找到 14 個 CPU、64GB 和 GPU 可供您使用。 在此之前， squeue會將您的作業顯示為待處理 ( PD )。

運行htop只會顯示登錄節點上運行的進程，您將看不到您提交的進程，除非您的集群只有一個節點恰好也是登錄節點。

如何在集群中通過 slurm 運行 python 腳本？

問題描述

1 個解決方案

解決方案1
0 已采納 2021-06-11 11:20:14

如何在集群中通過 slurm 運行 python 腳本？

問題描述

1 個解決方案

解決方案1 0 已采納 2021-06-11 11:20:14

解決方案1
0 已采納 2021-06-11 11:20:14