簡體 English 中英

opencl中的並行和減少實現

[英]parallel sum reduction implementation in opencl

原文 2015-07-31 15:22:47 6 1 opencl/ gpgpu

我正在瀏覽鏈接中提供的NVIDIA示例代碼

在示例內核代碼（文件oclReduction_kernel.c ）中，reduce4使用以下技術：

1）展開和刪除線程ID <32的同步屏障。

2）除此之外，代碼還使用blockSize檢查對本地內存中的數據求和。 我認為在OpenCL中，我們有get_local_size(0/1)來了解工作組的大小。 塊大小使我感到困惑。

我無法理解上述兩點。 為什么這些事情以及如何幫助優化？ 對reduce5和reduce6的任何解釋也將有所幫助。

1 個解決方案

您已經在https://docs.nvidia.com/cuda/samples/6_Advanced/reduction/doc/reduction.pdf的幻燈片21和22中進行了解釋，其中@ Marco13在注釋中進行了鏈接。

隨着減少的進行，＃個“活動”線程減少

當s <= 32時，我們僅剩一個翹曲

指令在扭曲內是SIMD同步的。

這意味着當s <= 32時：

我們不需要__syncthreads（）

我們不需要“ if（tid <s）”，因為它不保存任何工作

在不展開的情況下，所有扭曲都將執行for循環和if語句的每個迭代

並通過https://www.pgroup.com/lit/articles/insider/v2n1a5.htm ：

該代碼實際上以32個線程為一組執行，這被NVIDIA稱為warp。

每個內核都可以執行一個順序線程，但是內核以NVIDIA所謂的SIMT（單指令，多線程）方式執行。 與傳統SIMD處理器非常相似，同一組中的所有內核都同時執行同一條指令。

關於2） blockSize看起來應該是工作組的大小。

gpu上的並行減少總和計算錯誤的opencl

[英]Parallel reduction sum on gpu computes wrong opencl

促進並行還原OpenCL

[英]boosting parallel reduction OpenCL

openCL的約簡算法實現

[英]Reduction algorithm implementation on openCL

OpenCL浮點數減少

[英]OpenCL float sum reduction

雙減少opencl教程

[英]double sum reduction opencl tutorial

opencl-並行還原，無需本地內存

[英]opencl- parallel reduction without local memory

如何在OpenCL中使用並行約簡實現求和？

[英]How to implement summation using parallel reduction in OpenCL?

並行約簡算法中的OpenCL未定義行為

[英]OpenCL undefined behavior in parallel reduction algorithm

在OpenCL中使用本地內存並行減少

[英]Parallel reduction using local memory in OpenCL

OpenCL 2.x-減少總和功能

[英]OpenCL 2.x - Sum Reduction function

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 gpu上的並行減少總和計算錯誤的opencl 促進並行還原OpenCL openCL的約簡算法實現 OpenCL浮點數減少雙減少opencl教程 opencl-並行還原，無需本地內存如何在OpenCL中使用並行約簡實現求和？並行約簡算法中的OpenCL未定義行為在OpenCL中使用本地內存並行減少 OpenCL 2.x-減少總和功能

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM