繁体   English   中英

跨块的CUDA总和

[英]CUDA sum across blocks

您好,我是cuda编程的新手,但遇到了问题。

我有一个变量,让我们调用存储在每个块共享内存中的foo ,每个块的值都不同。 而且我只希望一个线程可以将所有这些求和求和。 我以为可以将foo发送到全局内存中,然后计算总和,但是有没有可以更快地执行此操作的函数?

谢谢你的帮助。

在每个块中有一个线程执行atomicAdd()操作会更快,将每个块的值添加到全局内存中的单个网格范围变量中。

请参阅《 CUDA C编程指南》相关部分

为了更深入地探索优化缩减(=求和),尽管不一定要执行该优化 ,请查看Mark Harris的演讲: 优化CUDA中的并行缩减

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM