cost 105 ms
有没有办法使用带有 NVLink 和 1TB RAM 的 2 个 GPU 卡的“统一内存”(MAGMA) - Is there a way to use "unified memory" (MAGMA) with 2 GPU cards with NVLink and 1TB RAM

在工作中,在 Debian 10 上,我有 2 张 GPU 卡 RTX A6000 和 NVlink 硬件组件和 1TB RAM,我想受益于两张卡和 1TB RAM 的潜在组合能力。 目前,我有以下由 Makefile 调用的 magma.make: 当我执行我的代码时,我有 memory 错误, ...

带有 2 个 GPU 汽车 NVIDIA A6000 的 N 体 OpenCL 代码(它们之间有 NVLink 连接) - N-body OpenCL code with 2 GPU cars NVIDIA A6000 (with NVLink connecting between themselves)

我想运行一个使用 OpenCL 的旧 N-body。 我有 2 张带有NVLink NVIDIA A6000 卡,这是一个从硬件(可能还有软件?)角度绑定的组件,这两张 GPU 卡。 但是在执行时,我得到以下结果: 内核失败 这是使用的内核代码(我已经放置了我估计对 NVIDIA 卡有用的编译 ...

OpenACC nvlink 未定义对 class 的引用 - OpenACC nvlink undefined reference to class

我是 OpenACC 的新手,我正在从头开始编写一个新程序(我非常清楚以前处理类似问题的循环计算成本很高)。 我从 nvlink 得到一个“未定义的引用”。 根据我的研究,我发现这是因为没有为我创建的 class 生成设备代码。 但是,我不明白为什么会发生这种情况以及如何解决它。 下面我从我的代码中 ...

NVLink 是否使用 DistributedDataParallel 加速训练? - Does NVLink accelerate training with DistributedDataParallel?

Nvidia 的NVLink加速了同一台机器上多个 GPU 之间的数据传输。 我使用 PyTorch 在这样的机器上训练大型模型。 我明白为什么 NVLink 会使模型并行训练更快,因为一次通过 model 将涉及多个 GPU。 但它会加速使用DistributedDataParallel的数据 ...

cudaMemcpyAsync 的奇怪行为: 1. cudaMemcpyKind 没有区别。 2.复制失败,但无声无息 - Odd behavior of cudaMemcpyAsync: 1. cudaMemcpyKind makes no difference. 2. Copy fails, but silently

我正在熟悉配备 Pascal P100 GPUs+Nvlink 的新集群。 我写了一个乒乓程序来测试 gpu<->gpu 和 gpu<->cpu 带宽和点对点访问。 (我知道 cuda 样本包含这样的程序,但我想自己做以更好地理解。)Nvlink 带宽似乎合理(~35 GB ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM