[英]SLURM: Should there be a different gres.conf for each node?
配置 slurm 集群时,您需要在所有节点上都有配置文件 slurm.conf 的副本。 这些副本是相同的。 在您需要在集群中使用 GPU 的情况下,您需要在所有节点上都有一个额外的配置文件。 这是 gres.conf。 我的问题是 - 根据该节点上的配置,此文件在每个节点上会有所不同,还是在所有节点上都相同(如 slurm.conf?)。 假设节点中gpus的配置不同,也不相同。
从 Slurm 版本 14.3.0 开始, gres.conf
接受NodeName
参数,以便可以在所有节点上设置相同的文件。
从新闻文件:
gres.conf - 添加“NodeName”规范,以便单个 gres.conf 文件可用于异构集群。
因此它看起来像这样:
NodeName=node001 Name=gpu File=/dev/nvidia0
NodeName=node002 Name=gpu File=/dev/nvidia[0-1]
...
在此之前,每个节点的gres.conf
文件必须是不同的。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.