cuda - CUDA共享內存-內核的總和減少

更新

看完所有評論后，我了解到，您無需進行450x450x6倍的縮減，而不是進行1或幾次縮減。

在這種情況下，有一個更簡單的解決方案。

您無需為每個1500-D向量實施相對復雜的並行歸約。由於您已經有450x450x6個要歸約的向量，因此可以使用傳統的串行歸約方法並行縮減所有這些向量。

您可以使用具有16x16線程的塊來處理圖像的特定區域，並使用具有29x29塊的網格來覆蓋整個450x450圖像。

在每個線程中，您可以迭代1500個幀。 在每個迭代中，您可以先計算6個中間結果，然后將它們添加到總和中。 完成所有迭代后，您可以將6個和寫入全局內存。

這樣就完成了內核設計。 不需要共享的內存。

您會發現性能非常好。 由於這是內存綁定操作，因此它不會比只訪問一次所有圖像多維數據集數據長得多。

如果您沒有足夠的全局內存用於整個多維數據集，則可以將其分成[1500] [225] [225]的4個子多維數據集，然后在每個子多維數據集上調用內核例程。 您唯一需要更改的是網格大小。

cuda shared memory, no synchronisation in kernel, premature output from kernel

[英]cuda shared memory, no synchronisation in kernel, premature output from kernel

多陣列共享內存上的CUDA減少

[英]CUDA Reduction on Shared Memory with Multiple Arrays

CUDA隨機播放指令的減少速度比共享內存的減少速度慢？

[英]CUDA shuffle instruction reduction slower than shared memory reduction?

從另一個內核調用sum減少內核

[英]Calling sum reduction kernel from another kernel

Numba - CUDA kernel 中的共享 memory 未正確更新

[英]Numba - Shared memory in CUDA kernel not updating correctly

具有動態共享內存的模板化 CUDA 內核

[英]Templated CUDA kernel with dynamic shared memory

在不使用內核的情況下寫入CUDA中的共享內存

[英]Writing to Shared Memory in CUDA without the use of a kernel

CUDA：使用網格擴展循環減少共享內存

[英]CUDA: Using grid-strided loop with reduction in shared memory

用CUDA減少總和：什么是N？

[英]Sum reduction with CUDA: What is N?

在內核運行之間清除CUDA共享內存的最簡單方法

[英]Simplest way to clear CUDA shared memory between kernel runs

CUDA共享內存-內核的總和減少

問題描述

4 個解決方案

解決方案1
2 2013-09-17 21:54:59

解決方案2
1 2013-09-18 02:40:06

更新

解決方案3
0 2013-09-17 23:41:34

解決方案4
0 2013-09-18 11:23:12

CUDA共享內存-內核的總和減少

問題描述

4 個解決方案

解決方案1 2 2013-09-17 21:54:59

解決方案2 1 2013-09-18 02:40:06

更新

解決方案3 0 2013-09-17 23:41:34

解決方案4 0 2013-09-18 11:23:12

解決方案1
2 2013-09-17 21:54:59

解決方案2
1 2013-09-18 02:40:06

解決方案3
0 2013-09-17 23:41:34

解決方案4
0 2013-09-18 11:23:12