使用并行算法减少总和-与CPU版本相比性能较差

Question

我已经实现了一个小代码，可以减少一维数组的总和。 我正在比较CPU顺序版本和OpenCL版本。

该代码可以在这个链接1

内核代码在此链接上可用2

如果要编译： Makefile的link3

我的问题是关于GPU版本的不良表现：

对于小于1,024 * 10 ^ 9个元素的向量（即1024, 10240, 102400, 1024000, 10240000, 102400000 elements ），GPU版本的运行时高于（略高但更高）CPU版本。

如您所见，我采用了2 ^ n个值，以使工作项的数量与工作组的大小兼容。

关于工作组的数量，我采取了以下措施：

// Number of work-groups
  int nWorkGroups = size/local_item_size;

但是对于大量的工作项，我想知道nWorkGroups的值是否合适（例如， nWorkGroups = 1.024 * 10^8 / 1024 = 10^5 workgroups ，这不是太多吗？）。

我试图在[64, 128, 256, 512, 1024] loca_item_size范围内修改loca_item_size ，但是对于所有这些值，性能仍然很差。

我仅对size = 1.024 * 10^9元素有好处，这是运行时：

Size of the vector
1024000000

Problem size = 1024000000

GPU Parallel Reduction : Wall Clock = 20 second 977511 micro

Final Sum Sequential = 5.2428800006710899200e+17

Sequential Reduction : Wall Clock = 337 second 459777 micro

从您的经验来看，我为什么会表现不佳？ 尽管与CPU版本相比，我的优势更显着。

也许有人会在源代码中看到一个主要错误，因为目前我无法解决此问题。

谢谢

Answer 1

好吧，我可以告诉你一些原因：

您无需编写缩减缓冲区。 您可以使用clEnqueueFillBuffer()或帮助程序内核直接将其清除在GPU内存中。
ret = clEnqueueWriteBuffer(command_queue, reductionBuffer, CL_TRUE, 0, local_item_size * sizeof(double), sumReduction, 0, NULL, NULL);
除了上次读取的内容外，不要使用阻塞呼叫。 否则，您会在那里浪费时间。
您正在最后一次减少CPU。 通过内核进行迭代处理可以提供帮助。
因为如果您的内核每次减少128个元素。 您的10 ^ 9号码降到8 * 10 ^ 6。 CPU负责其余的工作。 如果在其中添加数据副本，则将使其完全不值钱。 但是，如果以每遍512个元素运行3次遍，则仅从GPU读取10 ^ 9/512 ^ 3 = 8个值。 因此，唯一的瓶颈将是第一个GPU复制和内核启动。

使用并行算法减少总和-与CPU版本相比性能较差

问题描述

1 个解决方案

解决方案1
1 已采纳 2016-02-17 16:04:59

使用并行算法减少总和-与CPU版本相比性能较差

问题描述

1 个解决方案

解决方案1 1 已采纳 2016-02-17 16:04:59

解决方案1
1 已采纳 2016-02-17 16:04:59