簡體   English   中英

在嵌套的 for 循環中插入 OpenMP pragms 的最佳方法

[英]Best way to insert OpenMP pragms in nested for loops

我想用簡單的例子來解釋我的問題陳述[我想這是圖像處理中的常見問題]。 假設我嵌套了 for 循環 ocde,如下所示:

for(int bs=0;bs<2;bs++){
    for(int c=0;c<3;c++){
        for(int h=0;h<227;h++){
            for(int w=0;w<227;w++){
                //Element index calculation
                int eleIdx=bs*3*300*300+c*300*300+h*300+w;
                // Here arr is raw buffer
                arr[eleIdx]=exp(arr[eleIdx])/(1+exp(arr[eleIdx]))
            }
        }
    }
}

並行化上述代碼的最佳選擇是什么? 以下是我正在考慮的選項?

  1. 在外部bs index or loop上添加#pragma omp parallel for collapse(4)
  2. h index for loop上添加#pragma omp parallel for collapse(2)

哪一個更好? 請讓我知道這背后的原因。

並行化上述代碼的最佳選擇是什么? 以下是我正在考慮的選項?

在外部 bs 索引或循環上添加 #pragma omp parallel for collapse(4)。 在循環的內部 h 索引上添加 #pragma omp parallel for collapse(2)。

正如@Gilles 已經指出的那樣,這取決於很多因素。 例如,與非折疊子句相比,折疊子句增加了額外的計算,因為在線程之間分配迭代的啟發式更為復雜。 此外,崩潰級別越高,開銷就越高。 但始終剖析就是答案。

理想情況下,您應該遵循@Gillies發布的答案的建議。 但是,如果這不可能,您可以做的是撕掉前兩個循環,應用循環展開,然后使用#pragma omp parallel for#pragma omp parallel for collapse(2) ,無論產生最佳結果。 或者簡單地交換循環,以便迭代較少的循環是最內部的:

這種方法的一個例子:

#pragma omp parallel for collapse(2)
for(int h=0;h<227;h++){
    for(int w=0;w<227;w++){
        for(int bs=0;bs<2;bs++){
            for(int c=0;c<3;c++){
                int eleIdx=bs*3*300*300+c*300*300+h*300+w;
                arr[eleIdx]=exp(arr[eleIdx])/(1+exp(arr[eleIdx]))
            }
        }
    }
}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM