CudaMemCpy在復制向量時返回cudaErrorInvalidValue <cv::Point3f>

Question

CudaMemCpy在將向量復制到設備上時返回cudaErrorInvalidValue。 我試過給“＆input”，“＆input [0]”，...我總是得到同樣的錯誤，但不明白為什么？

你可以使用cudaMemcpy復制一個向量，或者我是否需要先在一個新數組中復制該向量的內容？

void computeDepthChangeMap(unsigned char* depthChangeMap, size_t size, std::vector<cv::Point3f>* input, float dcf, int width, int height)                                           {
    unsigned char* dev_depthChangeMap = 0;
    float* dev_dcf = 0;
    int* dev_wdt = 0;
    int arraySize = size;
    cv::Point3f* dev_input = 0;
    cudaError_t cudaStatus;

    cudaStatus = cudaSetDevice(0);
    cudaStatus = cudaMalloc((void**)&dev_depthChangeMap, size);
    cudaStatus = cudaMalloc((void**)&dev_input, size);
    cudaStatus = cudaMalloc((void**)&dev_dcf, sizeof(float));
    cudaStatus = cudaMalloc((void**)&dev_wdt, sizeof(int));

    cudaStatus = cudaMemcpy(dev_depthChangeMap, depthChangeMap, size, cudaMemcpyHostToDevice);
    cudaStatus = cudaMemcpy(dev_wdt, &width, sizeof(int), cudaMemcpyHostToDevice);
    cudaStatus = cudaMemcpy(dev_dcf, &dcf, sizeof(float), cudaMemcpyHostToDevice);
    cudaStatus = cudaMemcpy(dev_input, &input[0], sizeof(cv::Point3f)*size, cudaMemcpyHostToDevice);

    //cuaStatus returns cudaErrorInvalidValue >> PROBLEM HERE << 

    dim3 threadsPerBlock(8, 8); //init x, y
    dim3 numBlocks(width / threadsPerBlock.x, height / threadsPerBlock.y);

    addKernel <<<numBlocks, threadsPerBlock >>>(dev_depthChangeMap, dev_dcf, dev_input, dev_wdt);


    cudaStatus = cudaGetLastError();   
    cudaStatus = cudaDeviceSynchronize();
    cudaStatus = cudaMemcpy(depthChangeMap, dev_depthChangeMap, size, cudaMemcpyDeviceToHost);
}

__global__ void addKernel(unsigned char* dev_depthChangeMap, float* dcf, cv::Point3f* inp, int* wdt)
{
    register int row_idx = (blockIdx.x * blockDim.x) + threadIdx.x;
    register int col_idx = (blockIdx.y * blockDim.y) + threadIdx.y;
    register int idx = row_idx * (*wdt) + col_idx;

    register float depth = inp[idx].z;
    register float depthR = inp[idx + 1].z;
    register float depthD = inp[idx + *wdt].z;

    //and so on

}

Answer 1

是的，您可以使用cudaMemcpy從std::vector進行復制。

您沒有正確設置尺寸：

void computeDepthChangeMap(unsigned char* depthChangeMap, size_t size, std::vector<cv::Point3f>* input, float dcf, int width, int height)                                           {

...
cudaStatus = cudaMalloc((void**)&dev_input, size);
                                            ^^^^

cudaStatus = cudaMemcpy(dev_input, &input[0], sizeof(cv::Point3f)*size, cudaMemcpyHostToDevice);
                                                     ^^^^^^^^^^^^^^^^^

這些大小參數都應以字節為單位 。 您不能復制長度的數據sizeof(cv::Point3f)*size字節到的長度分配size字節。

此外，您的函數參數似乎是一個指向向量的指針：

std::vector<cv::Point3f>* input,

根據您顯示的代碼，這可能不是您想要的。 您可能要么按值傳遞向量：

std::vector<cv::Point3f> input,

或更可能通過參考 ：

std::vector<cv::Point3f> &input,

由於您尚未顯示您打算如何調用此功能，因此無法完全確定此處的最佳功能。

CudaMemCpy在復制向量時返回cudaErrorInvalidValue <cv::Point3f>

問題描述

1 個解決方案

解決方案1
3 已采納 2015-05-18 13:59:20

CudaMemCpy在復制向量時返回cudaErrorInvalidValue <cv::Point3f>

問題描述

1 個解決方案

解決方案1 3 已采納 2015-05-18 13:59:20

解決方案1
3 已采納 2015-05-18 13:59:20