[英]What is the most efficient algorithm for adding a billion numbers on a GPU?
我正在尝试以最省时的方式将 GPU 上十亿个二进制数组的所有元素添加到一个数字中,而现在我知道如何做到这一点的唯一方法是通过并行前缀总和。 我知道我可以使用其他算法(即令人尴尬的并行),但我不知道哪个是最省时的选择,也不知道如何实际实现该算法。 任何带有一点伪代码的答案都会令人惊叹。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.