CUDA cudaMemcpy數組結構

Question

我想在我的項目中清理CUDA內核的參數。

現在，一個內核需要3個uint32_t數組，這導致相當丑陋的代碼：（id表示全局線程id和valX是一些任意值）

__global__ void some_kernel(uint32_t * arr1, uint32_t * arr2, uint32_t * arr3){arr1[id] = val1; arr2[id] = val2; arr3[id] = val3;}

我想用結構來覆蓋所有這些數組：

typedef struct S{uint_32_t arr1, uint_32_t arr2, uint_32_t arr3, uint32_t size} S;

其中size表示結構中每個arrX的長度。

我想擁有的是：

__global__ void some_kernel(S * s){s->arr1[id] = val1; s->arr2[id] = val2; s->arr3[id] = val3;}

對於像這樣的結構，相應的cudaMalloc和cudaMemcpy會是什么樣子？ 這有什么性能缺點，我還沒有看到嗎？

提前致謝！

Answer 1

您至少有兩個選擇。 talonmies 已經給出了一個很好的選擇，但我將向您介紹“學習艱難的方法”的方法。

首先，你的結構定義：

typedef struct S {
    uint32_t *arr1;
    uint32_t *arr2;
    uint32_t *arr3; 
    uint32_t size;
} S;

...和內核定義（使用一些全局變量，但您不需要遵循該模式）：

const int size = 10000;

__global__ void some_kernel(S *s)
{
    int id = blockIdx.x * blockDim.x + threadIdx.x;
    if (id < size)
    {
        s->arr1[id] = 1; // val1
        s->arr2[id] = 2; // val2
        s->arr3[id] = 3; // val3
    }
}

請注意， if保護您免受越界限制。

接下來，我們提供了一些准備數據，執行內核並打印一些結果的函數。 第一部分是數據分配：

uint32_t *host_arr1, *host_arr2, *host_arr3;
uint32_t *dev_arr1, *dev_arr2, *dev_arr3;

// Allocate and fill host data
host_arr1 = new uint32_t[size]();
host_arr2 = new uint32_t[size]();
host_arr3 = new uint32_t[size]();

// Allocate device data   
cudaMalloc((void **) &dev_arr1, size * sizeof(*dev_arr1));
cudaMalloc((void **) &dev_arr2, size * sizeof(*dev_arr2));
cudaMalloc((void **) &dev_arr3, size * sizeof(*dev_arr3));

// Allocate helper struct on the device
S *dev_s;
cudaMalloc((void **) &dev_s, sizeof(*dev_s));

沒什么特別的，你只需要分配三個數組和結構。 更有趣的是如何處理將此類數據復制到設備中：

// Copy data from host to device
cudaMemcpy(dev_arr1, host_arr1, size * sizeof(*dev_arr1), cudaMemcpyHostToDevice);
cudaMemcpy(dev_arr2, host_arr2, size * sizeof(*dev_arr2), cudaMemcpyHostToDevice);
cudaMemcpy(dev_arr3, host_arr3, size * sizeof(*dev_arr3), cudaMemcpyHostToDevice);

// NOTE: Binding pointers with dev_s
cudaMemcpy(&(dev_s->arr1), &dev_arr1, sizeof(dev_s->arr1), cudaMemcpyHostToDevice);
cudaMemcpy(&(dev_s->arr2), &dev_arr2, sizeof(dev_s->arr2), cudaMemcpyHostToDevice);
cudaMemcpy(&(dev_s->arr3), &dev_arr3, sizeof(dev_s->arr3), cudaMemcpyHostToDevice);

除了您注意到的普通數組副本之外，還需要將它們與結構“綁定”在一起。 為此，您需要傳遞指針的地址。 結果，只復制這些指針。

下一次內核調用，將數據再次復制回主機並打印結果：

// Call kernel
some_kernel<<<10000/256 + 1, 256>>>(dev_s); // block size need to be a multiply of 256

// Copy result to host:
cudaMemcpy(host_arr1, dev_arr1, size * sizeof(*host_arr1), cudaMemcpyDeviceToHost);
cudaMemcpy(host_arr2, dev_arr2, size * sizeof(*host_arr2), cudaMemcpyDeviceToHost);
cudaMemcpy(host_arr3, dev_arr3, size * sizeof(*host_arr3), cudaMemcpyDeviceToHost);

// Print some result
std::cout << host_arr1[size-1] << std::endl;
std::cout << host_arr2[size-1] << std::endl;
std::cout << host_arr3[size-1] << std::endl;

請記住，在任何嚴肅的代碼中，您應始終檢查CUDA API調用中的錯誤。

CUDA cudaMemcpy數組結構

問題描述

1 個解決方案

解決方案1
5 2015-07-23 22:17:30

CUDA cudaMemcpy數組結構

問題描述

1 個解決方案

解決方案1 5 2015-07-23 22:17:30

解決方案1
5 2015-07-23 22:17:30