簡體   English   中英

SLURM中的工作狀態

[英]job status in SLURM

我想查看所有最近在集群上運行的作業(已完成,失敗和正在運行)。 我還希望每個工作看到1個條目。 執行sacct將每項作業sacct運行3行, State: FAILED, FAILED, COMPLETED 這是什么意思,我該如何查看想要查看的實際信息?

我也不明白trueJobName是什么意思。

這是輸出的副本:

   JobID    JobName  Partition    Account  AllocCPUS      State ExitCode 
 ------------ ---------- ---------- ---------- ---------- ---------- -------- 
 2160852               R   interact cluster_u+          2  COMPLETED      0:0 
 2160864               R   interact cluster_u+          2  COMPLETED      0:0 
 2161424               R   interact cluster_u+          2  COMPLETED      0:0 
 2161430               R   interact cluster_u+          0 CANCELLED+      0:0 
 2161431               R   interact cluster_u+          2  COMPLETED      0:0 
 2161668               R   interact cluster_u+          2  COMPLETED      0:9 
 2161682          myjob+    general cluster_u+          2     FAILED      1:0 
 2161682.bat+      batch            cluster_u+          1     FAILED      1:0 
 2161682.0          true            cluster_u+          1  COMPLETED      0:0 
 2161683          myjob+    general cluster_u+          2     FAILED      1:0 
 2161683.bat+      batch            cluster_u+          1     FAILED      1:0 
 2161683.0          true            cluster_u+          1  COMPLETED      0:0 

提交腳本(請注意,<%%>中的值由R中的Package BatchJobs處理):

 #!/bin/bash
 #SBATCH -J <%= job.name %>            # name of the job
 #SBATCH -p general
 #SBATCH --mem <%= resources$memory %>    # Memory requirements in Kbytes
 #SBATCH -o ./logs/<%= job.name %>_log.txt    # Memory requirements in Kbytes


 eval "R --vanilla --slave < <%= rscript %>"

sacct將為每個作業打印一行,然后在該作業中為每個作業步驟打印一行。

 2161683          myjob+    general cluster_u+          2     FAILED      1:0  <- the job
 2161683.bat+      batch            cluster_u+          1     FAILED      1:0  <- the batch script
 2161683.0          true            cluster_u+          1  COMPLETED      0:0  <- the R step

作業的狀態失敗,因為腳本本身的狀態失敗。 您的腳本中有一個工作步驟,它已正確終止。

我經常求助於sacct |grep -v "^[0-9]*\\." 僅獲取工作信息。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM