gpu上的並行減少總和計算錯誤的opencl

Question

所以我在全局內存中的gpu上寫了一個並行歸約總和，因為我的gpu沒有共享內存（我相信這意味着我不能使用本地內存嗎？）。 問題是，當我嘗試添加超過1024 * 4的數字時，它開始輸出錯誤的解決方案，通常取決於我輸入的數字，它的輸出誤差為幾百到幾千。 原因可能是什么？ A是輸入，C是輸出。

  __kernel void GMM(__global float *A, __global float *B, __global float *C) 
{
uint global_id =get_global_id(0);
uint group_size=get_global_size(0);

B[global_id]=A[global_id];
for(int stride = group_size/2;stride>0;stride /=2)
{ 
    if(global_id<stride)
    {
         B[global_id]+=B[global_id+stride];
    } 
}
if(global_id == 0)
C[get_group_id(0)]=B[0];
}

Answer 1

解決了，顯然我確實有共享內存。 並且通過使用__local內存和局部障礙，解決方案是一致且正確的！

gpu上的並行減少總和計算錯誤的opencl

問題描述

1 個解決方案

解決方案1
0 2016-03-30 09:44:17

gpu上的並行減少總和計算錯誤的opencl

問題描述

1 個解決方案

解決方案1 0 2016-03-30 09:44:17

解決方案1
0 2016-03-30 09:44:17