未調用CUDA內核函數

Question

我剛開始使用CUDA，但遇到了一些問題。 我在下面發布的代碼基本上是NVIDIA網站上最簡單的示例，並添加了一些內存副本和打印語句以確保其正常運行。

代碼可以編譯並運行而不會產生抱怨，但是當我打印矢量c時，它全為零，就好像根本沒有調用GPU內核函數一樣。

這幾乎是完全一樣的，因為這后基本CUDA -讓內核使用C ++的設備上運行。

症狀是一樣的，盡管我似乎沒有犯此錯誤。 有任何想法嗎？

#include <stdio.h>

static const unsigned short N = 3;

// Kernel definition
__global__ void VecAdd(float* A, float* B, float* C)
{
    int i = threadIdx.x;
    C[i] = A[i] + B[i];
} 

int main()
{
  float *A, *B, *C;
  float a[N] = {1,2,3}, b[N] = {4,5,6}, c[N] = {0,0,0};

  cudaMalloc( (void **)&A, sizeof(float)*N );
  cudaMalloc( (void **)&B, sizeof(float)*N );
  cudaMalloc( (void **)&C, sizeof(float)*N );

  cudaMemcpy( A, a, sizeof(float)*N, cudaMemcpyHostToDevice );
  cudaMemcpy( B, b, sizeof(float)*N, cudaMemcpyHostToDevice );

  VecAdd<<<1, N>>>(A, B, C);

  cudaMemcpy( c, C, sizeof(float)*N, cudaMemcpyHostToDevice );

  printf("%f %f %f\n", c[0],c[1],c[2]);

  cudaFree(A);
  cudaFree(B);
  cudaFree(C);

  return 0;
}

Answer 1

在上一個cudaMemcpy調用中，您傳遞的內存復制方向標志不正確。

cudaMemcpy( c, C, sizeof(float)*N, cudaMemcpyHostToDevice );

它應該是：

cudaMemcpy( c, C, sizeof(float)*N, cudaMemcpyDeviceToHost );

未調用CUDA內核函數

問題描述

1 個解決方案

解決方案1
4 2014-02-24 09:07:37

未調用CUDA內核函數

問題描述

1 個解決方案

解決方案1 4 2014-02-24 09:07:37

解決方案1
4 2014-02-24 09:07:37