使用DPC++ oneAPI提升性能

Question

我是 OpenCL/OneAPI 的新手。 如何更改此嵌套循環以使用 oneAPI GPU：

try {
        for (int i = 0; i < count; i++) {
            for (int j = 0; j < count; j++) {
                if (a_array[i] * a_array[j] == max) {
                    p_found = a_array[i];
                    q_found = a_array[j];
                    
                    throw "found";
                }
            }
        }
    }
    catch (...) {
        std::cout << "q = " << q_found << " and p = " << p_found << std::endl;
    }

Answer 1

以下是該任務的 OpenCL kernel 的樣子：

#define count 1024
#define max 1.0f
kernel void find(const global float* a_array, gloabl float* pq_found) {
    const uint n = get_global_id(0); // parallelized across nested double loop
    cosnt uint i=n/count, j=n%count;
    const float a_arrayi=a_array[i], a_arrayj=a_array[j];
    if(a_arrayi*a_arrayj==max) {
        pq_found[0] = a_arrayi;
        pq_found[1] = a_arrayj;
    }
}

請注意，由於並行化，有一個小問題：如果恰好有一個命中，一切都很好。 然而，如果有不止一次命中，結果將是多次命中中的任意一次，並且是完全隨機的。

使用DPC++ oneAPI提升性能

問題描述

1 個解決方案

解決方案1
2 已采納 2020-12-06 20:38:55

使用DPC++ oneAPI提升性能

問題描述

1 個解決方案

解決方案1 2 已采納 2020-12-06 20:38:55

解決方案1
2 已采納 2020-12-06 20:38:55