繁体   English   中英

slurm 22.05.2 gpu 分片是无效的 GRES 名称

[英]slurm 22.05.2 gpu shard is invalid gres name

我正在尝试在测试 slurm 节点 (22.05.2 slurmctld + slurmd) 上设置gpu 分片 但是,无论我使用的可能配置是什么 (1. - 3.),分片根本不起作用,因为slurmd将分片忽略为无效的gres名称:

slurmd: error: Ignoring gres.conf record, invalid name: shard

有没有人启动并运行 gpu 分片?

根据官方手册,要使用 Sharding 即 GPU 共享,必须在slurm.conf中启用它。 一个例子是,

NodeName=tux[1-16] Gres=gpu:2,shard:200"

如果/etc/slurm/slurm.conf中不存在此内容,那么您就不走运了。

您可以在 slurm 讨论组中获得帮助。

您没有发布 slurm.conf 和 gres.conf。 我不确定可能是什么问题,但这里有一个问题可能与您的问题类似:

https://groups.google.com/g/slurm-users/c/C1CLyPpD1e0

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM