繁体   English   中英

IBM Spectrum LSF - 访问不同 HPC 节点上的多个 GPU

[英]IBM Spectrum LSF - Accessing multiple GPUs on different HPC nodes

我正在尝试使用多个 GPU:总共 8 个 GPU,每个节点 4 个 GPU 设备,总共:2 个节点。

到目前为止,我收到“内存不足错误”:

我检查了我的 tensorflow 代码部分输出,只有 4 个 GPU 设备被使用。

我的 tensorflow 代码是一个修改代码的教程,它使用带有大输入文件的 tensorflow 函数(在具有 2 个 GPU 的 HPC 交互环境中运行良好,使用较小的文件)。 TensorFlow 代码自动找到 GPU 并将任务分配给它们。

如何获取我的工作代码或 python 程序代码以查找和使用所有 8 个 GPU(来自 2 个节点)?

HPC 工作人员无法帮助我解决这个问题,并提到需要复杂的代码。 这两天我一直在寻找一个好的教程,但找不到。

欢迎任何有用的建议。 这是我当前的脚本:

#!/bin/bash
#BSUB -q gpu
#BSUB -J gpus_8
#BSUB -P acc_hpc
#BSUB -R v100
#BSUB -n 2
#BSUB -R "affinity[core(30)]"
#BSUB -R rusage[mem=326000,ngpus_excl_p=4]
#BSUB -W 05:00
#BSUB -o %J.stdout
#BSUB -eo %J.stderr
#BSUB -L /bin/bash

WRKDIR=/scratch/user
ml anaconda3
source activate environ1

python3 gpu_job.py

使用#BSUB -R rusage[mem=326000,ngpus_excl_p=8]代替。 资源需求通常是每个作业。 另请参阅https://www.ibm.com/support/knowledgecenter/en/SSWRJV_10.1.0/lsf_resource_sharing/use_gpu_res_reqs.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM