[英]Best way to insert OpenMP pragms in nested for loops
我想用簡單的例子來解釋我的問題陳述[我想這是圖像處理中的常見問題]。 假設我嵌套了 for 循環 ocde,如下所示:
for(int bs=0;bs<2;bs++){
for(int c=0;c<3;c++){
for(int h=0;h<227;h++){
for(int w=0;w<227;w++){
//Element index calculation
int eleIdx=bs*3*300*300+c*300*300+h*300+w;
// Here arr is raw buffer
arr[eleIdx]=exp(arr[eleIdx])/(1+exp(arr[eleIdx]))
}
}
}
}
並行化上述代碼的最佳選擇是什么? 以下是我正在考慮的選項?
bs index or loop
上添加#pragma omp parallel for collapse(4)
。h index for loop
上添加#pragma omp parallel for collapse(2)
。哪一個更好? 請讓我知道這背后的原因。
並行化上述代碼的最佳選擇是什么? 以下是我正在考慮的選項?
在外部 bs 索引或循環上添加 #pragma omp parallel for collapse(4)。 在循環的內部 h 索引上添加 #pragma omp parallel for collapse(2)。
正如@Gilles 已經指出的那樣,這取決於很多因素。 例如,與非折疊子句相比,折疊子句增加了額外的計算,因為在線程之間分配迭代的啟發式更為復雜。 此外,崩潰級別越高,開銷就越高。 但始終剖析就是答案。
理想情況下,您應該遵循@Gillies發布的答案的建議。 但是,如果這不可能,您可以做的是撕掉前兩個循環,應用循環展開,然后使用#pragma omp parallel for
或#pragma omp parallel for collapse(2)
,無論產生最佳結果。 或者簡單地交換循環,以便迭代較少的循環是最內部的:
這種方法的一個例子:
#pragma omp parallel for collapse(2)
for(int h=0;h<227;h++){
for(int w=0;w<227;w++){
for(int bs=0;bs<2;bs++){
for(int c=0;c<3;c++){
int eleIdx=bs*3*300*300+c*300*300+h*300+w;
arr[eleIdx]=exp(arr[eleIdx])/(1+exp(arr[eleIdx]))
}
}
}
}
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.