![](/img/trans.png)
[英]How to define multiple gres resources in SLURM using the same GPU device?
[英]slurm 22.05.2 gpu shard is invalid gres name
我正在尝试在测试 slurm 节点 (22.05.2 slurmctld + slurmd) 上设置gpu 分片。 但是,无论我使用的可能配置是什么 (1. - 3.),分片根本不起作用,因为slurmd
将分片忽略为无效的gres
名称:
slurmd: error: Ignoring gres.conf record, invalid name: shard
有没有人启动并运行 gpu 分片?
根据官方手册,要使用 Sharding 即 GPU 共享,必须在slurm.conf
中启用它。 一个例子是,
NodeName=tux[1-16] Gres=gpu:2,shard:200"
如果/etc/slurm/slurm.conf
中不存在此内容,那么您就不走运了。
您可以在 slurm 讨论组中获得帮助。
您没有发布 slurm.conf 和 gres.conf。 我不确定可能是什么问题,但这里有一个问题可能与您的问题类似:
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.