簡體   English   中英

IBM Spectrum LSF - 訪問不同 HPC 節點上的多個 GPU

[英]IBM Spectrum LSF - Accessing multiple GPUs on different HPC nodes

我正在嘗試使用多個 GPU:總共 8 個 GPU,每個節點 4 個 GPU 設備,總共:2 個節點。

到目前為止,我收到“內存不足錯誤”:

我檢查了我的 tensorflow 代碼部分輸出,只有 4 個 GPU 設備被使用。

我的 tensorflow 代碼是一個修改代碼的教程,它使用帶有大輸入文件的 tensorflow 函數(在具有 2 個 GPU 的 HPC 交互環境中運行良好,使用較小的文件)。 TensorFlow 代碼自動找到 GPU 並將任務分配給它們。

如何獲取我的工作代碼或 python 程序代碼以查找和使用所有 8 個 GPU(來自 2 個節點)?

HPC 工作人員無法幫助我解決這個問題,並提到需要復雜的代碼。 這兩天我一直在尋找一個好的教程,但找不到。

歡迎任何有用的建議。 這是我當前的腳本:

#!/bin/bash
#BSUB -q gpu
#BSUB -J gpus_8
#BSUB -P acc_hpc
#BSUB -R v100
#BSUB -n 2
#BSUB -R "affinity[core(30)]"
#BSUB -R rusage[mem=326000,ngpus_excl_p=4]
#BSUB -W 05:00
#BSUB -o %J.stdout
#BSUB -eo %J.stderr
#BSUB -L /bin/bash

WRKDIR=/scratch/user
ml anaconda3
source activate environ1

python3 gpu_job.py

使用#BSUB -R rusage[mem=326000,ngpus_excl_p=8]代替。 資源需求通常是每個作業。 另請參閱https://www.ibm.com/support/knowledgecenter/en/SSWRJV_10.1.0/lsf_resource_sharing/use_gpu_res_reqs.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM