簡體   English   中英

跨塊的CUDA總和

[英]CUDA sum across blocks

您好,我是cuda編程的新手,但遇到了問題。

我有一個變量,讓我們調用存儲在每個塊共享內存中的foo ,每個塊的值都不同。 而且我只希望一個線程可以將所有這些求和求和。 我以為可以將foo發送到全局內存中,然后計算總和,但是有沒有可以更快地執行此操作的函數?

謝謝你的幫助。

在每個塊中有一個線程執行atomicAdd()操作會更快,將每個塊的值添加到全局內存中的單個網格范圍變量中。

請參閱《 CUDA C編程指南》相關部分

為了更深入地探索優化縮減(=求和),盡管不一定要執行該優化 ,請查看Mark Harris的演講: 優化CUDA中的並行縮減

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM