繁体   English   中英

运行具有多个节点的slurm脚本,使用1个任务启动作业步骤

[英]Running slurm script with multiple nodes, launch job steps with 1 task

我正在尝试使用批处理脚本启动大量作业步骤。 不同的步骤可以是完全不同的程序,并且每个步骤只需要一个CPU。 首先,我尝试使用--multi-prog参数进行srun 不幸的是,当以这种方式使用分配给我的作业的所有CPU时,性能会大幅降低。 运行时间几乎增加到序列化值。 通过订阅我可以改善这一点。 我在网上找不到关于这个问题的任何内容,所以我认为它是我正在使用的集群的配置问题。

所以我试着走另一条路。 我实现了以下脚本(通过sbatch my_script.slurm启动):

#!/bin/bash
#SBATCH -o $HOME/slurm/slurm_out/%j.%N.out
#SBATCH --error=$HOME/slurm/slurm_out/%j.%N.err_out
#SBATCH --get-user-env
#SBATCH -J test
#SBATCH -D $HOME/slurm
#SBATCH --export=NONE
#SBATCH --ntasks=48

NR_PROCS=$(($SLURM_NTASKS))
for PROC in $(seq 0 $(($NR_PROCS-1)));
do
    #My call looks like this:
    #srun --exclusive -n1 bash $PROJECT/call_shells/call_"$PROC".sh &
    srun --exclusive -n1 hostname &
    pids[${PROC}]=$!    #Save PID of this background process
done
for pid in ${pids[*]};
do
    wait ${pid} #Wait on all PIDs, this returns 0 if ANY process fails
done

我知道,在我的案例中并不真正需要 - --exclusive论证。 调用的shell脚本包含不同的二进制文件及其参数。 我的脚本的剩余部分依赖于所有进程已完成因此wait的事实。 我更改了调用行,使其成为一个最小的工作示例。

起初,这似乎是解决方案。 不幸的是,当增加我的作业分配中使用的节点数量时(例如,通过将--ntasks增加到大于我的集群中每个节点的CPU数量的数量),脚本将不再按预期工作,返回

srun: Warning: can't run 1 processes on 2 nodes, setting nnodes to 1

并继续只使用一个节点(在我的情况下是48个CPU,它们像以前一样快速完成作业步骤,其他节点上的所有进程随后被杀死)。

这似乎是预期的行为,但我无法理解它。 为什么给定分配中的每个作业步骤都需要包含与分配中包含的节点数相等的最小任务数。 我通常根本不关心我的分配中使用的节点数量。

如何实现我的批处理脚本,以便可以在多个节点上可靠地使用它?

找到了! slurm的命名法和许多命令行选项使我感到困惑。 解决方案由

#!/bin/bash
#SBATCH -o $HOME/slurm/slurm_out/%j.%N.out
#SBATCH --error=$HOME/slurm/slurm_out/%j.%N.err_out
#SBATCH --get-user-env
#SBATCH -J test
#SBATCH -D $HOME/slurm
#SBATCH --export=NONE
#SBATCH --ntasks=48

NR_PROCS=$(($SLURM_NTASKS))
for PROC in $(seq 0 $(($NR_PROCS-1)));
do
    #My call looks like this:
    #srun --exclusive -N1 -n1 bash $PROJECT/call_shells/call_"$PROC".sh &
    srun --exclusive -N1 -n1 hostname &
    pids[${PROC}]=$!    #Save PID of this background process
done
for pid in ${pids[*]};
do
    wait ${pid} #Wait on all PIDs, this returns 0 if ANY process fails
done

这指定仅在包含单个任务的一个节点上运行作业。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM