[英]Best way to insert OpenMP pragms in nested for loops
我想用简单的例子来解释我的问题陈述[我想这是图像处理中的常见问题]。 假设我嵌套了 for 循环 ocde,如下所示:
for(int bs=0;bs<2;bs++){
for(int c=0;c<3;c++){
for(int h=0;h<227;h++){
for(int w=0;w<227;w++){
//Element index calculation
int eleIdx=bs*3*300*300+c*300*300+h*300+w;
// Here arr is raw buffer
arr[eleIdx]=exp(arr[eleIdx])/(1+exp(arr[eleIdx]))
}
}
}
}
并行化上述代码的最佳选择是什么? 以下是我正在考虑的选项?
bs index or loop
上添加#pragma omp parallel for collapse(4)
。h index for loop
上添加#pragma omp parallel for collapse(2)
。哪一个更好? 请让我知道这背后的原因。
并行化上述代码的最佳选择是什么? 以下是我正在考虑的选项?
在外部 bs 索引或循环上添加 #pragma omp parallel for collapse(4)。 在循环的内部 h 索引上添加 #pragma omp parallel for collapse(2)。
正如@Gilles 已经指出的那样,这取决于很多因素。 例如,与非折叠子句相比,折叠子句增加了额外的计算,因为在线程之间分配迭代的启发式更为复杂。 此外,崩溃级别越高,开销就越高。 但始终剖析就是答案。
理想情况下,您应该遵循@Gillies发布的答案的建议。 但是,如果这不可能,您可以做的是撕掉前两个循环,应用循环展开,然后使用#pragma omp parallel for
或#pragma omp parallel for collapse(2)
,无论产生最佳结果。 或者简单地交换循环,以便迭代较少的循环是最内部的:
这种方法的一个例子:
#pragma omp parallel for collapse(2)
for(int h=0;h<227;h++){
for(int w=0;w<227;w++){
for(int bs=0;bs<2;bs++){
for(int c=0;c<3;c++){
int eleIdx=bs*3*300*300+c*300*300+h*300+w;
arr[eleIdx]=exp(arr[eleIdx])/(1+exp(arr[eleIdx]))
}
}
}
}
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.