簡體   English   中英

OpenCV CUDA運行速度比OpenCV CPU慢

[英]OpenCV CUDA running slower than OpenCV CPU

當我從avi文件中讀取視頻時,我一直在努力獲取OpenCV CUDA來提高諸如侵蝕/膨脹,幀差異等性能。 通常,我在GPU(580gtx)上獲得的FPS是CPU(AMD 955BE)的一半。 在問我是否正確測量fps之前,您可以肉眼清楚地看到GPU上的延遲,尤其是在使用高腐蝕/膨脹水平時。

看來我不是並​​行閱讀幀? 這是代碼:

#include <opencv2/imgproc/imgproc.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <opencv2/video/tracking.hpp>
#include <opencv2/gpu/gpu.hpp>
#include <stdlib.h>
#include <stdio.h>

using namespace cv;
using namespace cv::gpu;

Mat cpuSrc;
GpuMat src, dst;

int element_shape = MORPH_RECT;

//the address of variable which receives trackbar position update
int max_iters = 10;
int open_close_pos = 0;
int erode_dilate_pos = 0;

// callback function for open/close trackbar
void OpenClose(int)
{
     IplImage disp;
     Mat temp;
    int n = open_close_pos - max_iters;
    int an = n > 0 ? n : -n;
    Mat element = getStructuringElement(element_shape, Size(an*2+1, an*2+1), Point(an, an) );
    if( n < 0 )
        cv::gpu::morphologyEx(src, dst, CV_MOP_OPEN, element);
    else
        cv::gpu::morphologyEx(src, dst, CV_MOP_CLOSE, element);

    dst.download(temp);
    disp = temp;    
   // cvShowImage("Open/Close",&disp);
}

// callback function for erode/dilate trackbar
void ErodeDilate(int)
{
     IplImage disp;
     Mat temp;
    int n = erode_dilate_pos - max_iters;
    int an = n > 0 ? n : -n;
    Mat element = getStructuringElement(element_shape, Size(an*2+1, an*2+1), Point(an, an) );
    if( n < 0 )
        cv::gpu::erode(src, dst, element);
    else
        cv::gpu::dilate(src, dst, element);
    dst.download(temp);
    disp = temp;    
    cvShowImage("Erode/Dilate",&disp);
}


int main( int argc, char** argv )
{

    VideoCapture capture("TwoManLoiter.avi");

    //create windows for output images
    namedWindow("Open/Close",1);
    namedWindow("Erode/Dilate",1);

    open_close_pos = 3;
    erode_dilate_pos = 0;
    createTrackbar("iterations", "Open/Close",&open_close_pos,max_iters*2+1,NULL);
    createTrackbar("iterations", "Erode/Dilate",&erode_dilate_pos,max_iters*2+1,NULL);

    for(;;)
    {

         capture >> cpuSrc;
         src.upload(cpuSrc);
         GpuMat grey;
         cv::gpu::cvtColor(src, grey, CV_BGR2GRAY); 
         src = grey;

        int c;

        ErodeDilate(erode_dilate_pos);
        c = cvWaitKey(25);

        if( (char)c == 27 )
            break;

    }

    return 0;
}

當然,使用命名空間cv :: gpu和Mat而不是GpuMat的CPU實現是相同的。

謝謝

我的猜測是,GPU侵蝕/膨脹帶來的性能增益會因每幀將圖像往返於GPU傳輸內存操作而被誇大。 請記住,內存帶寬是GPGPU算法的關鍵因素,CPU和GPU之間的帶寬甚至更多。

編輯:要對其進行優化,您可以編寫自己的使用OpenGL的圖像顯示例程(而不是cvShowImage),並且僅將圖像顯示為OpenGL紋理。 在這種情況下,您無需將處理后的圖像從GPU讀回CPU,並且可以直接使用OpenGL紋理/緩沖區作為CUDA圖像/緩沖區,因此您甚至不需要在GPU內部復制圖像。 但是在這種情況下,您可能必須自己管理CUDA資源。 通過這種方法,您還可以使用PBO將視頻上傳到紋理中,並從異步中受益。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM