OpenCL - 双重原子操作 - 工作到极限

Question

在此链接之后，我尝试实现一个原子函数来计算双atom_add数组的总和，因此我实现了自己的atom_add函数（用于双atom_add ）。

这是使用的内核代码：

#pragma OPENCL EXTENSION cl_khr_fp64: enable
#pragma OPENCL EXTENSION cl_khr_int64_base_atomics : enable

void atom_add_double(__global double *val, double delta)
{
  union {
  double f;
  ulong  i;
  } old, new;

  do
  {
   old.f = *val;
   new.f = old.f + delta;
  } 
  while (atom_cmpxchg((volatile __global ulong *)val, old.i, new.i) != old.i);

}  

__kernel void sumGPU ( __global const double *input, 
               __global double *finalSum
                 )
{
  // Index of current workItem
  uint gid = get_global_id(0);

  // Init sum
  *finalSum = 0.0;

  // Compute final sum 
  atom_add_double(finalSum, input[gid]);

}

我的问题是内核代码会产生良好的结果，直到我达到大约 100000 个元素的input数组大小。

超过此限制，计算不再有效（我可以轻松检查结果，因为在我的测试用例中，我通过循环填充输入数组for(i=0;i<sizeArray;i++) input[i]=i+1; ，所以总和等于sizeArray*(sizeArray+1)/2 )。

我可以定义一个像atom_add_double这样的函数atom_add_double放入内核代码中吗？

Answer 1

@huseyin 的答案是解决问题的正确答案。

但是，我忍不住要说“不要用原子来减少”。

甚至更糟糕的原子锁定在 while 循环中并直接访问全局数据。 我们可能至少在谈论 10 倍的性能损失。

如果可以，请使用适当的自动缩减 (CL 2.0+) 。

__kernel void sumGPU(__global const double *input, __global double *finalSum)
{
  // Index of current workItem
  uint gid = get_global_id(0);

  // Sum locally without atomics
  double sum = work_group_scan_inclusive_add(input[gid]);

  // Compute final sum using atomics
  // but it is even better if just store them in an array and do final sum in CPU
   // Only add the last one, since it contains the total sum
  if (get_local_id(0) == get_local_size(0) - 1) { 
    atom_add_double(finalSum, sum);
  }
}

Answer 2

*finalSum = 0.0;

是所有运行中线程的竞争条件。 它使我的计算机的结果为零。 删除它，从主机端初始化它。 如果您的 GPU 非常好，则运行中线程的数量可能高达 50000 甚至更多，并且在任何开始原子函数之前每个线程都达到 finalSum = 0.0 但是当您超过该限制时，第 50001 个（只是一个简单的数字）线程将其重新初始化为零。

然后，所有元素的总和不等于 size*(size+1)/2 因为它从零开始（第零个元素为零）所以它实际上是

(size-1)*(size)/2

当我从内核中删除 finalSum =0.0 时，它会为我的计算机提供正确的结果。

OpenCL - 双重原子操作 - 工作到极限

问题描述

2 个解决方案

解决方案1
3 2017-01-25 16:15:00

解决方案2
2 已采纳 2017-01-25 12:13:49

OpenCL - 双重原子操作 - 工作到极限

问题描述

2 个解决方案

解决方案1 3 2017-01-25 16:15:00

解决方案2 2 已采纳 2017-01-25 12:13:49

解决方案1
3 2017-01-25 16:15:00

解决方案2
2 已采纳 2017-01-25 12:13:49