繁体   English   中英

我在 C 上遇到 OpenMP 问题

[英]I am having trouble with OpenMP on C

我想并行化 for 循环,但我似乎无法理解这个概念,每次我尝试并行化它们时它仍然有效,但它会显着减慢。

for(i=0; i<nbodies; ++i){
    for(j=i+1; j<nbodies; ++j) {
        d2 = 0.0;   
        
        for(k=0; k<3; ++k) {
            
            rij[k] = pos[i][k] - pos[j][k];
            
            d2 += rij[k]*rij[k];
        
        if (d2 <= cut2) {
           d = sqrt(d2);
           d3 = d*d2;
           
           for(k=0; k<3; ++k) {
                double f = -rij[k]/d3;
                forces[i][k] += f;
                forces[j][k] -= f;
           }
           
           ene += -1.0/d; 
        }
       }
    }
}

在某些情况下,我尝试使用与屏障和关键的同步,但没有任何反应,或者处理根本没有结束。

更新,这是我现在使用的 state。 工作时没有崩溃,但计算时间越长,我添加的线程越多。 (锐龙 5 2600 6/12)

#pragma omp parallel shared(d,d2,d3,nbodies,rij,pos,cut2,forces) private(i,j,k) num_threads(n)
    {
        clock_t begin = clock();
       #pragma omp for schedule(auto)
        for(i=0; i<nbodies; ++i){
            
            for(j=i+1; j<nbodies; ++j) {
                d2 = 0.0;
                for(k=0; k<3; ++k) {
                    rij[k] = pos[i][k] - pos[j][k];
                    d2 += rij[k]*rij[k];    
                }
                
                if (d2 <= cut2) {
                    d = sqrt(d2);
                    d3 = d*d2;
                #pragma omp parallel for shared(d3) private(k) schedule(auto) num_threads(n)
                 for(k=0; k<3; ++k) {
                    double f = -rij[k]/d3;
                    #pragma omp atomic 
                    forces[i][k] += f;
                    #pragma omp atomic
                    forces[j][k] -= f;
                    }
                    
                    ene += -1.0/d; 
                }
            }
        }
    
        clock_t end = clock();
        double time_spent = (double)(end - begin) / CLOCKS_PER_SEC;
        #pragma omp single
        printf("Calculation time %lf sec\n",time_spent);
    }

我在实际的并行代码中加入了计时器(我认为这种方式快了几毫秒)。 此外,我认为我得到了大部分共享和私有变量的权利。 在文件中它输出力。

如果未同步的工作量不是很大,那么使用障碍或其他同步将减慢您的代码。 你的情况并非如此。 您可能需要重新编写代码以删除同步。

您正在做类似 N 体模拟的事情。 我在这里制定了几个解决方案: https://pages.tacc.utexas.edu/~eijkhout/pcse/html/omp-examples.html#N-bodyproblems

另外:您的d2循环是一个缩减,因此您可以这样对待它,但如果该变量是i,j迭代的私有变量,则可能就足够了。

您应该始终在最小要求的 scope 中定义您的变量,尤其是在性能存在问题的情况下。 (请注意,如果这样做,您的编译器可以创建更高效的代码)。 除了性能之外,它还有助于避免数据竞争。

我认为您放错了花括号,第一个for循环中的条件应该是i<nbodies-1 变量ene可以使用归约来求和,并且必须使用原子操作来增加数组forces ,因此您的代码应如下所示:

#pragma omp parallel for reduction(+:ene)
 for(int i=0; i<nbodies-1; ++i){
    for(int j=i+1; j<nbodies; ++j) {
        double d2 = 0.0;       
        double rij[3];
        for(int k=0; k<3; ++k) {
            rij[k] = pos[i][k] - pos[j][k];            
            d2 += rij[k]*rij[k];       
        }
        if (d2 <= cut2) {
           double d = sqrt(d2);
           double d3 = d*d2;
           
           for(int k=0; k<3; ++k) {
                double f = -rij[k]/d3;
                #pragma omp atomic
                forces[i][k] += f;
                #pragma omp atomic
                forces[j][k] -= f;
           }           
           ene += -1.0/d;         
       }
    }
 }
}

解决了,原来我需要的是

#pragma omp parallel for nowait

也不需要“原子”。

奇怪的解决方案,我不完全理解它是如何工作的,但它也确实 output 文件有 0 个损坏的结果。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM