簡體   English   中英

如何在集群中通過 slurm 運行 python 腳本?

[英]How to run a python script through slurm in a cluster?

在帶有 slurm 的服務器上配置 jupyter 的正確方法是什么? 閱讀完文檔后,我正在像這樣通過 slurm 執行我的 python 腳本(我不確定這是否有效):

$ srun -n 1 --time=02:00:00 --cpus-per-task=14 --mem=64gb --part=cluster-job --gres=gpu:rtx2080ti:1 python ./src/main.py

然后,我得到:

srun: job 2216877 queued and waiting for resources

當我做:

(base) [user@cluster ~]$ squeue -u user390284

我得到:

JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
2216877 cluster-job   python user390284 PD       0:00      1 (Resources)

這是運行我的腳本的正確方法嗎? 當我檢查 htop 時,我沒有看到任何進程正在運行。 看來我的過程卡住了。 在我的腳本中使用 slurm 的正確方法是什么?

這是在具有 rtx2080ti GPU 的計算節點上請求交互式 session 的正確方法。 但正如 Slurm 告訴您的,您的作業已提交,並且srun將阻塞,直到 Slurm 找到 14 個 CPU、64GB 和 GPU 可供您使用。 在此之前, squeue會將您的作業顯示為待處理 ( PD )。

運行htop只會顯示登錄節點上運行的進程,您將看不到您提交的進程,除非您的集群只有一個節點恰好也是登錄節點。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM