[英]job status in SLURM
我想查看所有最近在集群上運行的作業(已完成,失敗和正在運行)。 我還希望每個工作看到1個條目。 執行sacct
將每項作業sacct
運行3行, State: FAILED, FAILED, COMPLETED
。 這是什么意思,我該如何查看想要查看的實際信息?
我也不明白true
的JobName
是什么意思。
這是輸出的副本:
JobID JobName Partition Account AllocCPUS State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
2160852 R interact cluster_u+ 2 COMPLETED 0:0
2160864 R interact cluster_u+ 2 COMPLETED 0:0
2161424 R interact cluster_u+ 2 COMPLETED 0:0
2161430 R interact cluster_u+ 0 CANCELLED+ 0:0
2161431 R interact cluster_u+ 2 COMPLETED 0:0
2161668 R interact cluster_u+ 2 COMPLETED 0:9
2161682 myjob+ general cluster_u+ 2 FAILED 1:0
2161682.bat+ batch cluster_u+ 1 FAILED 1:0
2161682.0 true cluster_u+ 1 COMPLETED 0:0
2161683 myjob+ general cluster_u+ 2 FAILED 1:0
2161683.bat+ batch cluster_u+ 1 FAILED 1:0
2161683.0 true cluster_u+ 1 COMPLETED 0:0
提交腳本(請注意,<%%>中的值由R中的Package BatchJobs處理):
#!/bin/bash
#SBATCH -J <%= job.name %> # name of the job
#SBATCH -p general
#SBATCH --mem <%= resources$memory %> # Memory requirements in Kbytes
#SBATCH -o ./logs/<%= job.name %>_log.txt # Memory requirements in Kbytes
eval "R --vanilla --slave < <%= rscript %>"
sacct將為每個作業打印一行,然后在該作業中為每個作業步驟打印一行。
2161683 myjob+ general cluster_u+ 2 FAILED 1:0 <- the job
2161683.bat+ batch cluster_u+ 1 FAILED 1:0 <- the batch script
2161683.0 true cluster_u+ 1 COMPLETED 0:0 <- the R step
作業的狀態失敗,因為腳本本身的狀態失敗。 您的腳本中有一個工作步驟,它已正確終止。
我經常求助於sacct |grep -v "^[0-9]*\\."
僅獲取工作信息。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.