![](/img/trans.png)
[英]Running slurm script with multiple nodes, launch job steps with 1 task
[英]Running multiple worker daemons SLURM
我想在一台计算机上运行多个工作程序守护程序。 根据damienfrancois的回答,可以完成Slurm群集的最小计算机数量 。 问题是当前我只能在一台计算机上执行1个工作程序守护程序。 例如
当我跑步
sudo slurmd -N linux1 -cDvv
sudo slurmd -N linux2 -cDvv
当我运行linux2时linux1掉线了。 是否可以在一台计算机上运行多个辅助守护程序? 这是我的slurm.conf文件
因为您的意图似乎只是测试Slurm的行为,所以我建议您使用前端模式 ,您可以在同一台计算机上创建虚拟计算节点。
在他们的FAQ中 ,您有更多详细信息,但是基本上,您必须配置安装才能使用此模式:
./configure --enable-front-end
并在slurm.conf中配置节点
NodeName=test[1-100] NodeHostName=localhost
在该指南中,他们还解释了如何通过更改端口在同一节点中启动多个真实守护进程,但是出于我的测试目的,这不是必需的。
祝好运!
我遇到了与您相同的问题,我通过修改日志文件的路径来解决该问题,如提到的那样, 它支持多个slurmd 。 以您的slurm.conf为例
SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmdPidFile=/var/run/slurmd.pid
SlurmdSpoolDir=/var/spool/slurmd
一定是
SlurmdLogFile=/var/log/slurm/slurmd.%n.log
SlurmdPidFile=/var/run/slurmd.%n.pid
SlurmdSpoolDir=/var/spool/slurmd.%n
现在,您可以启动多个slurmd。
注意:我尝试使用您的slurm conf,我认为缺少一些参数,例如定义两个NodeName而不是一个,并为每个Node添加要使用的端口。 这对我有用
# COMPUTE NODES
NodeName=linux[1-10] NodeHostname=linux0 Port=17004 CPUs=1 State=UNKNOWN
NodeName=linux[11-19] NodeHostname=linux0 Port=17005 CPUs=1 State=UNKNOWN
# PARTITIONS
PartitionName=main Nodes=linux1 Default=YES MaxTime=INFINITE State=UP
PartitionName=dev Nodes=linux11 Default=YES MaxTime=INFINITE State=UP
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.