CUDA表現質疑

Question

由於我沒有得到CUDA論壇的回復，請在這里試試：

在CUDA中做了一些程序后，我們現在開始獲得它們的有效帶寬。 但是我有一些奇怪的結果，例如在下面的代碼中，我可以求和向量中的所有元素（無論維度），使用Unroll Code和“normal”代碼的帶寬似乎具有相同的中值結果（大約3000 Gb / s）我不知道我是做錯了什么（AFAIK程序工作正常）但是從我到目前為止讀到的，Unroll代碼應該有更高的帶寬。

#include <stdio.h>
#include <limits.h>
#include <stdlib.h>
#include <math.h>
#define elements 1000
#define blocksize 16    


__global__ void vecsumkernel(float*input, float*output,int nelements){



    __shared__ float psum[blocksize];
    int tid=threadIdx.x;

    if(tid + blockDim.x * blockIdx.x < nelements)
    psum[tid]=input[tid+blockDim.x*blockIdx.x];
    else
    psum[tid]=0.0f;
    __syncthreads();

    //WITHOUT UNROLL

    int stride;     
    for(stride=blockDim.x/2;stride>0;stride>>=1){
            if(tid<stride)
                    psum[tid]+=psum[tid+stride];
    __syncthreads();
    }
    if(tid==0)
            output[blockIdx.x]=psum[0];


    //WITH UNROLL
 /*
    if(blocksize>=512 && tid<256) psum[tid]+=psum[tid+256];__syncthreads();
    if(blocksize>=256 && tid<128) psum[tid]+=psum[tid+128];__syncthreads();
    if(blocksize>=128 && tid<64) psum[tid]+=psum[tid+64];__syncthreads();


    if (tid < 32) {
            if (blocksize >= 64) psum[tid] += psum[tid + 32];
            if (blocksize >= 32) psum[tid] += psum[tid + 16];
            if (blocksize >= 16) psum[tid] += psum[tid + 8];
            if (blocksize >=  8) psum[tid] += psum[tid + 4];
            if (blocksize >=  4) psum[tid] += psum[tid + 2];
            if (blocksize >=  2) psum[tid] += psum[tid + 1];
    }*/

    if(tid==0)
            output[blockIdx.x]=psum[0];



}

void vecsumv2(float*input, float*output, int nelements){
    dim3 dimBlock(blocksize,1,1);
    int i;

    for(i=((int)ceil((double)(nelements)/(double)blocksize))*blocksize;i>1;i(int)ceil((double)i/(double)blocksize)){
            dim3 dimGrid((int)ceil((double)i/(double)blocksize),1,1);
            printf("\ni=%d\ndimgrid=%u\n ",i,dimGrid.x);

            vecsumkernel<<<dimGrid,dimBlock>>>(i==((int)ceil((double)(nelements)/(double)blocksize))*blocksize ?input:output,output,i==((int)ceil((double)(nelements)/(double)blocksize))*blocksize ? elements:i);
    }

 }

 void printVec(float*vec,int dim){
    printf("\n{");
    for(int i=0;i<dim;i++)
            printf("%f ",vec[i]);
    printf("}\n");
 }

 int main(){
    cudaEvent_t evstart, evstop;
    cudaEventCreate(&evstart);
    cudaEventCreate(&evstop);


    float*input=(float*)malloc(sizeof(float)*(elements));
    for(int i=0;i<elements;i++)
            input[i]=(float) i;


    float*output=(float*)malloc(sizeof(float)*elements);



    float *input_d,*output_d;

    cudaMalloc((void**)&input_d,elements*sizeof(float));

    cudaMalloc((void**)&output_d,elements*sizeof(float));



    cudaMemcpy(input_d,input,elements*sizeof(float),cudaMemcpyHostToDevice);


    cudaEventRecord(evstart,0);

    vecsumv2(input_d,output_d,elements);

    cudaEventRecord(evstop,0);
    cudaEventSynchronize(evstop);
    float time;
    cudaEventElapsedTime(&time,evstart,evstop);
    printf("\ntempo gasto:%f\n",time);
    float Bandwidth=((1000*4*2)/10^9)/time;
    printf("\n Bandwidth:%f Gb/s\n",Bandwidth);


    cudaMemcpy(output,output_d,elements*sizeof(float),cudaMemcpyDeviceToHost);


    cudaFree(input_d);
    cudaFree(output_d);
    printf("soma do vector");
    printVec(output,4);



   }

Answer 1

您展開的代碼中包含大量分支。 我數十個額外的分支機構。 通常，GPU上的warp內的分支是昂貴的，因為warp中的所有線程最終都在等待分支（發散）。

有關扭曲發散的更多信息，請參見此處：

http://forums.nvidia.com/index.php?showtopic=74842

您是否嘗試使用分析器查看發生了什么？

Answer 2

3000 Gb / s沒有意義。 每個方向的PCIe最大總線速度為8Gb / s。

看一下本文並行前綴和，以深入了解如何加快實施速度。 還要考慮推力庫已在減少模塊中實現了這一點

Answer 3

您未展開的代碼無效。 對於stride<32 ，同一warp的某些線程進入for循環，而其他線程則不進入for循環。 因此，warp的一些（但不是全部）線程命中__syncthreads() 。 CUDA規范說，當發生這種情況時，行為是未定義的。

可能會發生warp不同步，一些線程已經開始加載下一個數據塊，在__syncthreads()下一個實例上暫停，而之前的線程仍然停留在前一個循環中。

我不確定這是否是你在這個特殊情況下要面對的。

Answer 4

我看到你在內核中做了減少總和。 以下是NVIDIA對優化GPU降低的精彩演示。 您會注意到，本指南中提供2 GB / s吞吐量的相同代碼優化為63 GB / s 。

CUDA表現質疑

問題描述

4 個解決方案

解決方案1
4 已采納 2011-03-17 15:44:18

解決方案2
3 2011-03-17 18:30:11

解決方案3
1 2011-03-17 18:42:14

解決方案4
0 2011-03-18 04:44:34

CUDA表現質疑

問題描述

4 個解決方案

解決方案1 4 已采納 2011-03-17 15:44:18

解決方案2 3 2011-03-17 18:30:11

解決方案3 1 2011-03-17 18:42:14

解決方案4 0 2011-03-18 04:44:34

解決方案1
4 已采納 2011-03-17 15:44:18

解決方案2
3 2011-03-17 18:30:11

解決方案3
1 2011-03-17 18:42:14

解決方案4
0 2011-03-18 04:44:34