cuda - CUDA共享内存-内核的总和减少

更新

看完所有评论后，我了解到，您无需进行450x450x6倍的缩减，而不是进行1或几次缩减。

在这种情况下，有一个更简单的解决方案。

您无需为每个1500-D向量实施相对复杂的并行归约。由于您已经有450x450x6个要归约的向量，因此可以使用传统的串行归约方法并行缩减所有这些向量。

您可以使用具有16x16线程的块来处理图像的特定区域，并使用具有29x29块的网格来覆盖整个450x450图像。

在每个线程中，您可以迭代1500个帧。 在每个迭代中，您可以先计算6个中间结果，然后将它们添加到总和中。 完成所有迭代后，您可以将6个和写入全局内存。

这样就完成了内核设计。 不需要共享的内存。

您会发现性能非常好。 由于这是内存绑定操作，因此它不会比只访问一次所有图像多维数据集数据长得多。

如果您没有足够的全局内存用于整个多维数据集，则可以将其分成[1500] [225] [225]的4个子多维数据集，然后在每个子多维数据集上调用内核例程。 您唯一需要更改的是网格大小。

cuda shared memory, no synchronisation in kernel, premature output from kernel

[英]cuda shared memory, no synchronisation in kernel, premature output from kernel

多阵列共享内存上的CUDA减少

[英]CUDA Reduction on Shared Memory with Multiple Arrays

CUDA随机播放指令的减少速度比共享内存的减少速度慢？

[英]CUDA shuffle instruction reduction slower than shared memory reduction?

从另一个内核调用sum减少内核

[英]Calling sum reduction kernel from another kernel

Numba - CUDA kernel 中的共享 memory 未正确更新

[英]Numba - Shared memory in CUDA kernel not updating correctly

具有动态共享内存的模板化 CUDA 内核

[英]Templated CUDA kernel with dynamic shared memory

在不使用内核的情况下写入CUDA中的共享内存

[英]Writing to Shared Memory in CUDA without the use of a kernel

CUDA：使用网格扩展循环减少共享内存

[英]CUDA: Using grid-strided loop with reduction in shared memory

用CUDA减少总和：什么是N？

[英]Sum reduction with CUDA: What is N?

在内核运行之间清除CUDA共享内存的最简单方法

[英]Simplest way to clear CUDA shared memory between kernel runs

CUDA共享内存-内核的总和减少

问题描述

4 个解决方案

解决方案1
2 2013-09-17 21:54:59

解决方案2
1 2013-09-18 02:40:06

更新

解决方案3
0 2013-09-17 23:41:34

解决方案4
0 2013-09-18 11:23:12

CUDA共享内存-内核的总和减少

问题描述

4 个解决方案

解决方案1 2 2013-09-17 21:54:59

解决方案2 1 2013-09-18 02:40:06

更新

解决方案3 0 2013-09-17 23:41:34

解决方案4 0 2013-09-18 11:23:12

解决方案1
2 2013-09-17 21:54:59

解决方案2
1 2013-09-18 02:40:06

解决方案3
0 2013-09-17 23:41:34

解决方案4
0 2013-09-18 11:23:12