繁体   English   中英

推荐使用快速排序算法对数组中的片段进行局部排序

[英]Recommend a fast sorting algorithm for local order among the segment in the array

在GPU上的数组中的每个分段中对数据进行排序,分段的大小为32,并且对于不同的分段没有进一步的排序或合并。 因此,我将每个段的数据从全局内存加载到共享内存中,并在完成每个段的排序后将数据存储到全局内存中。 为了获得更高的吞吐量,什么是并行算法?

我建议您使用经内双调排序 ,该排序通过开普勒体系结构的SHFL指令非常有效地实现。 请参阅此GTC 2013演示文稿中的代码:

开普勒的SHUFFLE(SHFL)说明:提示和技巧

使用它还意味着您不必费心共享内存,只需将每个线程的一个值加载到寄存器中即可。

由于段大小均为32,因此我个人建议合并排序 还有这个文件,你可以参考一下。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM