[英]job status in SLURM
我想查看所有最近在集群上运行的作业(已完成,失败和正在运行)。 我还希望每个工作看到1个条目。 执行sacct
将每项作业sacct
运行3行, State: FAILED, FAILED, COMPLETED
。 这是什么意思,我该如何查看想要查看的实际信息?
我也不明白true
的JobName
是什么意思。
这是输出的副本:
JobID JobName Partition Account AllocCPUS State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
2160852 R interact cluster_u+ 2 COMPLETED 0:0
2160864 R interact cluster_u+ 2 COMPLETED 0:0
2161424 R interact cluster_u+ 2 COMPLETED 0:0
2161430 R interact cluster_u+ 0 CANCELLED+ 0:0
2161431 R interact cluster_u+ 2 COMPLETED 0:0
2161668 R interact cluster_u+ 2 COMPLETED 0:9
2161682 myjob+ general cluster_u+ 2 FAILED 1:0
2161682.bat+ batch cluster_u+ 1 FAILED 1:0
2161682.0 true cluster_u+ 1 COMPLETED 0:0
2161683 myjob+ general cluster_u+ 2 FAILED 1:0
2161683.bat+ batch cluster_u+ 1 FAILED 1:0
2161683.0 true cluster_u+ 1 COMPLETED 0:0
提交脚本(请注意,<%%>中的值由R中的Package BatchJobs处理):
#!/bin/bash
#SBATCH -J <%= job.name %> # name of the job
#SBATCH -p general
#SBATCH --mem <%= resources$memory %> # Memory requirements in Kbytes
#SBATCH -o ./logs/<%= job.name %>_log.txt # Memory requirements in Kbytes
eval "R --vanilla --slave < <%= rscript %>"
sacct将为每个作业打印一行,然后在该作业中为每个作业步骤打印一行。
2161683 myjob+ general cluster_u+ 2 FAILED 1:0 <- the job
2161683.bat+ batch cluster_u+ 1 FAILED 1:0 <- the batch script
2161683.0 true cluster_u+ 1 COMPLETED 0:0 <- the R step
作业的状态失败,因为脚本本身的状态失败。 您的脚本中有一个工作步骤,它已正确终止。
我经常求助于sacct |grep -v "^[0-9]*\\."
仅获取工作信息。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.