繁体 English 中英

使用Slurm在可用GPU上分发MPI线程程序

[英]Distribution of MPI-threaded program on available GPUs, using slurm

原文 2019-08-06 07:59:36 6 1 gpu/ mpi/ slurm

我的程序由A和B两部分组成，两者都是用C ++编写的。 B是从单独的DLL加载的，并且可以根据链接的方式在CPU或GPU上运行。 启动主程序时，它将创建A的一个实例，然后又创建一个B的实例（然后可以在本地可用的CPU或第一个GPU上运行）。
使用mpirun （或通过slurm ，依次启动mpirun ）启动程序时，会为每个MPI等级创建一个版本的A，从而为其本身创建一个版本的B。 当系统中只有一个GPU时，将使用该GPU，但是如果系统中有多个GPU，会发生什么呢？ B版本是否都放置在同一个GPU上，而不管是否有多个GPU可用，或者它们分布均匀？
有什么方法可以影响这种行为？ 不幸的是，我的开发机器没有多个GPU，因此除生产环境外，我无法对其进行测试。

1 个解决方案

Slurm通过例如--gpu-bind选项https://slurm.schedmd.com/gres.html来支持和理解将MPI等级绑定到GPU。 假设已正确配置群集以强制执行GPU亲和力，那么即使单个节点上有多个等级，也可以为每个等级分配一个GPU。

如果要进行测试，则可以使用例如cudaGetDevice和cudaGetDeviceProperties调用获取每个等级的设备luid（本地唯一ID），然后检查节点内luid是否重复。

我如何知道使用 SLURM 提交的作业是否使用 gpus？

[英]How do I know if a job submitted with SLURM is using gpus?

过度订阅GPU

[英]Slurm oversubscribe GPUs

使用 GPU 压缩文件的程序

[英]Program to compress files using GPUs

获取 SLURM 集群上的空闲 GPU 数量

[英]Get the number of free GPUs on a SLURM Cluster

运行时错误：没有 CUDA GPU 可用

[英]RuntimeError: No CUDA GPUs are available

如何在 slurm 上获得相同类型的多个 GPU？

[英]How to get multi GPUs same type on slurm?

如何使用Slurm访问群集中不同节点上的GPU？

[英]How to access to GPUs on different nodes in a cluster with Slurm?

SLURM：分配所有 GPU 后，无法再提交 CPU 作业

[英]SLURM: After allocating all GPUs no more cpu job can be submitted

正确使用 gpus-per-task 通过 SLURM 分配不同的 GPU

[英]Correct usage of gpus-per-task for allocation of distinct GPUs via SLURM

如何在多个 GPU 节点上获取分配给 SLURM 作业的 GPU ID？

[英]How to get the ID of GPU allocated to a SLURM job on a multiple GPUs node?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 我如何知道使用 SLURM 提交的作业是否使用 gpus？过度订阅GPU 使用 GPU 压缩文件的程序获取 SLURM 集群上的空闲 GPU 数量运行时错误：没有 CUDA GPU 可用如何在 slurm 上获得相同类型的多个 GPU？如何使用Slurm访问群集中不同节点上的GPU？ SLURM：分配所有 GPU 后，无法再提交 CPU 作业正确使用 gpus-per-task 通过 SLURM 分配不同的 GPU 如何在多个 GPU 节点上获取分配给 SLURM 作业的 GPU ID？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM