繁体   English   中英

在嵌套的 for 循环中插入 OpenMP pragms 的最佳方法

[英]Best way to insert OpenMP pragms in nested for loops

我想用简单的例子来解释我的问题陈述[我想这是图像处理中的常见问题]。 假设我嵌套了 for 循环 ocde,如下所示:

for(int bs=0;bs<2;bs++){
    for(int c=0;c<3;c++){
        for(int h=0;h<227;h++){
            for(int w=0;w<227;w++){
                //Element index calculation
                int eleIdx=bs*3*300*300+c*300*300+h*300+w;
                // Here arr is raw buffer
                arr[eleIdx]=exp(arr[eleIdx])/(1+exp(arr[eleIdx]))
            }
        }
    }
}

并行化上述代码的最佳选择是什么? 以下是我正在考虑的选项?

  1. 在外部bs index or loop上添加#pragma omp parallel for collapse(4)
  2. h index for loop上添加#pragma omp parallel for collapse(2)

哪一个更好? 请让我知道这背后的原因。

并行化上述代码的最佳选择是什么? 以下是我正在考虑的选项?

在外部 bs 索引或循环上添加 #pragma omp parallel for collapse(4)。 在循环的内部 h 索引上添加 #pragma omp parallel for collapse(2)。

正如@Gilles 已经指出的那样,这取决于很多因素。 例如,与非折叠子句相比,折叠子句增加了额外的计算,因为在线程之间分配迭代的启发式更为复杂。 此外,崩溃级别越高,开销就越高。 但始终剖析就是答案。

理想情况下,您应该遵循@Gillies发布的答案的建议。 但是,如果这不可能,您可以做的是撕掉前两个循环,应用循环展开,然后使用#pragma omp parallel for#pragma omp parallel for collapse(2) ,无论产生最佳结果。 或者简单地交换循环,以便迭代较少的循环是最内部的:

这种方法的一个例子:

#pragma omp parallel for collapse(2)
for(int h=0;h<227;h++){
    for(int w=0;w<227;w++){
        for(int bs=0;bs<2;bs++){
            for(int c=0;c<3;c++){
                int eleIdx=bs*3*300*300+c*300*300+h*300+w;
                arr[eleIdx]=exp(arr[eleIdx])/(1+exp(arr[eleIdx]))
            }
        }
    }
}

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM