printf里面有CUDA global函數

Question

我目前正在GPU上編寫矩陣乘法並希望調試我的代碼，但由於我不能在設備函數中使用printf，我還能做些什么來查看該函數內部的內容。 這是我目前的功能：

__global__ void MatrixMulKernel(Matrix Ad, Matrix Bd, Matrix Xd){

    int tx = threadIdx.x;
    int ty = threadIdx.y;

    int bx = blockIdx.x;
    int by = blockIdx.y;

    float sum = 0;

    for( int k = 0; k < Ad.width ; ++k){
        float Melement = Ad.elements[ty * Ad.width + k];
        float Nelement = Bd.elements[k * Bd.width + tx];
        sum += Melement * Nelement;
    }

    Xd.elements[ty * Xd.width + tx] = sum;
}

我很想知道Ad和Bd是否是我認為的，看看是否真的被調用了。

Answer 1

CUDA現在直接在內核中支持printf 。 有關形式描述，請參閱“ CUDA C編程指南”的附錄B.16。

Answer 2

編輯

為了避免誤導人們，正如M. Tibbits所指出的，printf可用於任何計算能力2.0及更高版本的GPU。

編輯結束

你有選擇：

使用GPU調試器，即Linux上的cuda-gdb或Windows上的Nexus
使用cuprintf，可供注冊開發人員使用（在此處注冊）
手動復制要查看的數據，然后在內核完成后將該緩沖區轉儲到主機上（記得同步）

關於你的代碼片段：

考慮在via指針中傳遞Matrix結構（即cudaMemcpy它們到設備，然后傳入設備指針），現在你沒有問題，但如果函數簽名變得非常大，那么你可能會達到256字節的限制
你從Ad讀取效率低，每次讀入Melement時你都會有一個32字節的內存事務 - 考慮使用共享內存作為暫存區域（參見SDK中的transposeNew示例）

Answer 3

cuprintf
試試Nexus http://developer.nvidia.com/object/nexus.html

順便說說..

使用共享內存
在循環外加倍
看看這個： http ： //www.seas.upenn.edu/~cis665/LECTURES/Lecture11.ppt

Answer 4

請參閱“CUDA C編程指南”的“格式化輸出”（當前為B.17）部分。

http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html

printf里面有CUDA global函數

問題描述

4 個解決方案

解決方案1
72 2011-07-05 17:10:57

解決方案2
16 已采納 2010-02-01 08:46:45

解決方案3
4 2010-02-09 00:00:26

解決方案4
2 2013-10-29 19:47:19

printf里面有CUDA __global__函數

問題描述

4 個解決方案

解決方案1 72 2011-07-05 17:10:57

解決方案2 16 已采納 2010-02-01 08:46:45

解決方案3 4 2010-02-09 00:00:26

解決方案4 2 2013-10-29 19:47:19

printf里面有CUDA global函數

解決方案1
72 2011-07-05 17:10:57

解決方案2
16 已采納 2010-02-01 08:46:45

解決方案3
4 2010-02-09 00:00:26

解決方案4
2 2013-10-29 19:47:19