繁体   English   中英

OpenMP/C++:for 循环中的元素数

[英]OpenMP/C++: number of elements in for-loop

我正在用 C++ 中的 OpenMP 做一些非常简单的测试,我遇到了一个可能很愚蠢的问题,但我找不到问题所在。 在以下 MWE 中:

#include <iostream>
#include <ctime>
#include <vector>
#include <omp.h>

int main()
{

  int nthreads=1, threadid=0;
  clock_t tstart, tend;
  const int nx=10, ny=10, nz=10;
  int i, j, k;
  std::vector<std::vector<std::vector<long long int> > > arr_par;

  arr_par.resize(nx);
  for (i=0; i<nx; i++) {
    arr_par[i].resize(ny);
    for (j = 0; j<ny; j++) {
      arr_par[i][j].resize(nz);
    }
  }

  tstart = clock();
#pragma omp parallel default(shared) private(threadid)
  {
#ifdef _OPENMP
    nthreads = omp_get_num_threads();
    threadid = omp_get_thread_num();
#endif
#pragma omp master
    std::cout<<"OpenMP execution with "<<nthreads<<" threads"<<std::endl;
#pragma omp end master
#pragma omp barrier
#pragma omp critical
    {
      std::cout<<"Thread id: "<<threadid<<std::endl;
    }

#pragma omp for
    for (i=0; i<nx; i++) {
      for (j=0; j<ny; j++) {
        for (k=0; k<nz; k++) {
          arr_par[i][j][k] = i*j + k;
        }
      }
    }
  }
  tend = clock();
  std::cout<<"Elapsed time: "<<(tend - tstart)/double(CLOCKS_PER_SEC)<<" s"<<std::endl;

  return 0;
}

如果nxnynz等于10 ,则代码运行顺利。 如果我将这些数字增加到20 ,则会出现段错误。 无论元素数量如何,它都可以按顺序运行或使用OMP_NUM_THREADS=1运行没有问题。

我编译了该死的东西

g++ -std=c++0x -fopenmp -gstabs+ -O0 test.cpp -o test

使用 GCC 4.6.3。

任何想法将不胜感激!

您的循环计数器中存在数据竞争:

#pragma omp for
for (i=0; i<nx; i++) {
  for (j=0; j<ny; j++) {          // <--- data race
    for (k=0; k<nz; k++) {        // <--- data race
      arr_par[i][j][k] = i*j + k;
    }
  }
}

由于jk都没有被赋予private数据共享类,当多个线程试图一次增加它们时,它们的值可能会超过相应的限制,从而导致对arr_par访问。 多个线程同时增加jk的机会随着迭代次数的增加而增加。

处理这些情况的最佳方法是在循环运算符本身内简单地声明循环变量:

#pragma omp for
for (int i=0; i<nx; i++) {
  for (int j=0; j<ny; j++) {
    for (int k=0; k<nz; k++) {
      arr_par[i][j][k] = i*j + k;
    }
  }
}

另一种方式是将private(j,k)子句添加到并行区域的头部:

#pragma omp parallel default(shared) private(threadid) private(j,k)

在您的情况下,没有必要将i设为私有,因为并行循环的循环变量被隐式设为私有。 尽管如此,如果i在代码中的其他地方使用,将其设为私有以防止其他数据竞争可能是有意义的。

此外,不要使用clock()来测量并行应用程序的时间,因为在大多数 Unix 操作系统上,它返回所有线程的总 CPU 时间。 请改用omp_get_wtime()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM