繁体 English 中英

CUDA cudaMemcpyAsync 使用单个 stream 到主机

[英]CUDA cudaMemcpyAsync using single stream to host

原文 2021-02-07 13:59:02 2 1 cuda/ cuda-streams

我有一个 kernel ，它使用单个stream 感受两个参数（dev_out_1 和 dev_out_2）的数据。 我想将设备中的数据并行复制回主机。 我的要求是使用单个 stream 并并行复制回主机。

您如何处理此类问题？

SomeCudaCall<<<25,34>>>(input, dev_out_1,dev_out_2);
cudaMemcpyAsync(toHere_1, dev_out_1, sizeof(int), cudaMemcpyDeviceToHost,0);
cudaMemcpyAsync(toHere_2, dev_out_2, sizeof(int), cudaMemcpyDeviceToHost,0);

1 个解决方案

我想将设备中的数据并行复制回主机

这是不可能的。

NVIDIA GPU 只能使用一个 DMA 引擎进行设备到主机的传输（即使在有多个 DMA 引擎的情况下），并且 DMA 引擎一次只能执行一次传输。 因此，不可能通过 PCI Express 总线在同一方向上进行“并行”复制。

为什么cudaMemcpyAsync（主机到设备）和CUDA内核是并行的？

[英]Why not cudaMemcpyAsync(host to device) and CUDA kernel are parallel?

在CUDA9中，“ cudaMemcpyAsync（）”是设备还是主机功能？

[英]In CUDA9, is “cudaMemcpyAsync()” both a device and a host function?

cuda中的cudaStreamSynchronize用于单个流

[英]cudaStreamSynchronize in cuda for a single stream

C 中的 CUDA：如何使用 cudaMemcpyAsync 修复错误 11

[英]CUDA in C: How to fix Error 11 with cudaMemcpyAsync

从每个主机线程启动 CUDA stream

[英]Launching a CUDA stream from each host thread

cudaMemcpyAsync 与可分页 memory 阻止主机线程？

[英]cudaMemcpyAsync with pageable memory blocks host thread?

使用CUDA流的优势

[英]Advantage of using a CUDA Stream

在cuda主机代码中使用openMP？

[英]Using openMP in the cuda host code?

在每个主机线程上创建cuda流（多线程CPU）

[英]Creating a cuda stream on each host thread (multi-threaded CPU)

我如何知道cudaMemcpyAsync已完成读取主机内存？

[英]How do I know that cudaMemcpyAsync is done reading host memory?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 为什么cudaMemcpyAsync（主机到设备）和CUDA内核是并行的？在CUDA9中，“ cudaMemcpyAsync（）”是设备还是主机功能？ cuda中的cudaStreamSynchronize用于单个流 C 中的 CUDA：如何使用 cudaMemcpyAsync 修复错误 11 从每个主机线程启动 CUDA stream cudaMemcpyAsync 与可分页 memory 阻止主机线程？使用CUDA流的优势在cuda主机代码中使用openMP？在每个主机线程上创建cuda流（多线程CPU）我如何知道cudaMemcpyAsync已完成读取主机内存？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM