简体   繁体   English

IBM Spectrum LSF - 访问不同 HPC 节点上的多个 GPU

[英]IBM Spectrum LSF - Accessing multiple GPUs on different HPC nodes

I'm trying to utilize multiple GPUs: Total 8 GPUs, 4 GPU devices per node, total: 2 nodes.我正在尝试使用多个 GPU:总共 8 个 GPU,每个节点 4 个 GPU 设备,总共:2 个节点。

So far I am getting a "not enough memory error":到目前为止,我收到“内存不足错误”:

I checked my tensorflow code partial output, and only 4 GPU devices are being utilized.我检查了我的 tensorflow 代码部分输出,只有 4 个 GPU 设备被使用。

My tensorflow code is a tutorial with modified code that uses tensorflow functions with a large input file (works well in an HPC interactive environment with 2 GPUs, using smaller file).我的 tensorflow 代码是一个修改代码的教程,它使用带有大输入文件的 tensorflow 函数(在具有 2 个 GPU 的 HPC 交互环境中运行良好,使用较小的文件)。 The tensorflow code automatically finds the GPUs and spreads the task across them. TensorFlow 代码自动找到 GPU 并将任务分配给它们。

How do I get my job code or python program code to find and use all 8 GPUs (from 2 nodes)?如何获取我的工作代码或 python 程序代码以查找和使用所有 8 个 GPU(来自 2 个节点)?

HPC staff can't help me with this and mentioned that complex code is needed. HPC 工作人员无法帮助我解决这个问题,并提到需要复杂的代码。 I've spent the last two days looking for a good tutorial and couldn't find any.这两天我一直在寻找一个好的教程,但找不到。

Any helpful suggestions are welcome.欢迎任何有用的建议。 Here is my current script:这是我当前的脚本:

#!/bin/bash
#BSUB -q gpu
#BSUB -J gpus_8
#BSUB -P acc_hpc
#BSUB -R v100
#BSUB -n 2
#BSUB -R "affinity[core(30)]"
#BSUB -R rusage[mem=326000,ngpus_excl_p=4]
#BSUB -W 05:00
#BSUB -o %J.stdout
#BSUB -eo %J.stderr
#BSUB -L /bin/bash

WRKDIR=/scratch/user
ml anaconda3
source activate environ1

python3 gpu_job.py

Use #BSUB -R rusage[mem=326000,ngpus_excl_p=8] instead.使用#BSUB -R rusage[mem=326000,ngpus_excl_p=8]代替。 Resource requirements are normally per job.资源需求通常是每个作业。 See also https://www.ibm.com/support/knowledgecenter/en/SSWRJV_10.1.0/lsf_resource_sharing/use_gpu_res_reqs.html .另请参阅https://www.ibm.com/support/knowledgecenter/en/SSWRJV_10.1.0/lsf_resource_sharing/use_gpu_res_reqs.html

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM