![](/img/trans.png)
[英]How To Run MPI Python Script across multiple nodes on Slurm cluster? Error: Warning: can't run 1 processes on 2 nodes, setting nnodes to 1
[英]How to run a python script through slurm in a cluster?
在帶有 slurm 的服務器上配置 jupyter 的正確方法是什么? 閱讀完文檔后,我正在像這樣通過 slurm 執行我的 python 腳本(我不確定這是否有效):
$ srun -n 1 --time=02:00:00 --cpus-per-task=14 --mem=64gb --part=cluster-job --gres=gpu:rtx2080ti:1 python ./src/main.py
然后,我得到:
srun: job 2216877 queued and waiting for resources
當我做:
(base) [user@cluster ~]$ squeue -u user390284
我得到:
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
2216877 cluster-job python user390284 PD 0:00 1 (Resources)
這是運行我的腳本的正確方法嗎? 當我檢查 htop 時,我沒有看到任何進程正在運行。 看來我的過程卡住了。 在我的腳本中使用 slurm 的正確方法是什么?
這是在具有 rtx2080ti GPU 的計算節點上請求交互式 session 的正確方法。 但正如 Slurm 告訴您的,您的作業已提交,並且srun
將阻塞,直到 Slurm 找到 14 個 CPU、64GB 和 GPU 可供您使用。 在此之前, squeue
會將您的作業顯示為待處理 ( PD
)。
運行htop
只會顯示登錄節點上運行的進程,您將看不到您提交的進程,除非您的集群只有一個節點恰好也是登錄節點。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.