繁体   English   中英

SLURM中的工作状态

[英]job status in SLURM

我想查看所有最近在集群上运行的作业(已完成,失败和正在运行)。 我还希望每个工作看到1个条目。 执行sacct将每项作业sacct运行3行, State: FAILED, FAILED, COMPLETED 这是什么意思,我该如何查看想要查看的实际信息?

我也不明白trueJobName是什么意思。

这是输出的副本:

   JobID    JobName  Partition    Account  AllocCPUS      State ExitCode 
 ------------ ---------- ---------- ---------- ---------- ---------- -------- 
 2160852               R   interact cluster_u+          2  COMPLETED      0:0 
 2160864               R   interact cluster_u+          2  COMPLETED      0:0 
 2161424               R   interact cluster_u+          2  COMPLETED      0:0 
 2161430               R   interact cluster_u+          0 CANCELLED+      0:0 
 2161431               R   interact cluster_u+          2  COMPLETED      0:0 
 2161668               R   interact cluster_u+          2  COMPLETED      0:9 
 2161682          myjob+    general cluster_u+          2     FAILED      1:0 
 2161682.bat+      batch            cluster_u+          1     FAILED      1:0 
 2161682.0          true            cluster_u+          1  COMPLETED      0:0 
 2161683          myjob+    general cluster_u+          2     FAILED      1:0 
 2161683.bat+      batch            cluster_u+          1     FAILED      1:0 
 2161683.0          true            cluster_u+          1  COMPLETED      0:0 

提交脚本(请注意,<%%>中的值由R中的Package BatchJobs处理):

 #!/bin/bash
 #SBATCH -J <%= job.name %>            # name of the job
 #SBATCH -p general
 #SBATCH --mem <%= resources$memory %>    # Memory requirements in Kbytes
 #SBATCH -o ./logs/<%= job.name %>_log.txt    # Memory requirements in Kbytes


 eval "R --vanilla --slave < <%= rscript %>"

sacct将为每个作业打印一行,然后在该作业中为每个作业步骤打印一行。

 2161683          myjob+    general cluster_u+          2     FAILED      1:0  <- the job
 2161683.bat+      batch            cluster_u+          1     FAILED      1:0  <- the batch script
 2161683.0          true            cluster_u+          1  COMPLETED      0:0  <- the R step

作业的状态失败,因为脚本本身的状态失败。 您的脚本中有一个工作步骤,它已正确终止。

我经常求助于sacct |grep -v "^[0-9]*\\." 仅获取工作信息。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM