[英]C OpenMP parallel for loops make it much slower than single thread
我是C語言中的OpenMP的新手。我使用它來並行執行函數中的for循環,但與單線程情況相比,它大大降低了我的for循環。 例如,對於每個點(光暈),for循環可以完成10s左右,但是使用OpenMP則需要花費幾分鍾。
在此函數中,我試圖通過計算殼內的每個粒子的密度(暈圈)來計算許多殼的密度,然后將它們精煉成一個數組。 有512 ^ 3個粒子,大約要計算200個點(暈)。 我想為不同的線程拆分點(暈)以使其更快。
#define ArrayAccess2D_n2(a, n1, n2, i1, i2) (a)[ i2+n2*i1 ]
void halo_shell_rho(float boxsize, float *halo_pos, float *halo_R, int halo_number,\
int halo_start, int halo_end, float *par_pos, long long par_number,\
int shell_bins, float rmax_fac, float *out_shell_den){
float temp;
long long iter_sfs=0, iter_sfc=0, iter_ufs=0, iter_ufc=0;
int dim=3;
float par_posx, par_posy, par_posz, dist;
float halo_posx, halo_posy, halo_posz, halo_rad;
int i=0, ini_j=0, vol_j=0;
int a=0, b=0;
long long k=0;
#pragma omp parallel for private(i, ini_j, vol_j, a, b, k)
for(i=halo_start; i<=halo_end; i++){
printf("halo %d\n", i);
float count[shell_bins];
float volume[shell_bins];
for(ini_j=0; ini_j<shell_bins; ini_j++){
count[ini_j] = 0;
volume[ini_j] = 0; }
halo_posx = ArrayAccess2D_n2(halo_pos, dim, halo_number, 0, i);
halo_posy = ArrayAccess2D_n2(halo_pos, dim, halo_number, 1, i);
halo_posz = ArrayAccess2D_n2(halo_pos, dim, halo_number, 2, i);
halo_rad = halo_R[i];
for(vol_j=0; vol_j<shell_bins; vol_j++){
volume[vol_j] = shell_volume((vol_j+1)*halo_rad*rmax_fac/(shell_bins*1000), vol_j*halo_rad*rmax_fac/(shell_bins*1000)); }
for(k=0; k<par_number; k++){
par_posx = ArrayAccess2D_n2(par_pos, par_number, dim, k, 0);
par_posy = ArrayAccess2D_n2(par_pos, par_number, dim, k, 1);
par_posz = ArrayAccess2D_n2(par_pos, par_number, dim, k, 2);
dist = pb_distance(boxsize*1000, halo_posx, halo_posy, halo_posz, par_posx, par_posy, par_posz); //1000 for boxsize in Mpc
if(dist <= 2*rmax_fac*halo_rad){
for(a=0; a<shell_bins; a++){
if((dist <= halo_rad*(a+1)*rmax_fac/shell_bins) && (dist >= halo_rad*a*rmax_fac/shell_bins)){
count[a] += 1; }
}
}
}
for(b=0; b<shell_bins; b++){
out_shell_den[(i-halo_start+0*(1+halo_end-halo_start))*shell_bins+b] = count[b]/volume[b];
//out_shell_den has shape (2, halo_number, shell_bins), 0 for edge, 1 for density
out_shell_den[(i-halo_start+1*(1+halo_end-halo_start))*shell_bins+b] = (2*b+1)*rmax_fac/(shell_bins*2);
}
}
}
有人可以幫我嗎? 我知道這是一個非常常見的問題,但我沒有從其他帖子中找到任何解決方案。 如果有幫助,我可以在具有32個線程的群集上運行它。
謝謝!
感謝@DavidSchwartz和@ tim18。
像halo_rad和par_posx這樣的變量在並行操作之前聲明,這意味着它們被隱式假定為公共的。 因此它放慢了速度,因為所有線程都在爭奪使用它們的權利。 解決此問題的一種方法是將所有變量添加到private()。 但是我認為更好的方法是像這樣在並行內部聲明變量:
void halo_shell_rho(float boxsize, float *halo_pos, float *halo_R, int halo_number, int halo_start, int halo_end, float *par_pos, long long par_number, int shell_bins, float rmax_fac, float *out_shell_den){
int dim=3;
int i=0, ini_j=0, vol_j=0, a=0, b=0;
long long k=0;
#pragma omp parallel for private(i, ini_j, vol_j, a, b, k)
for(i=halo_start; i<=halo_end; i++){
printf("halo %d\n", i);
float halo_posx, halo_posy, halo_posz, halo_rad;
float count[shell_bins];
float volume[shell_bins];
for(ini_j=0; ini_j<shell_bins; ini_j++){
count[ini_j] = 0;
volume[ini_j] = 0; }
halo_posx = ArrayAccess2D_n2(halo_pos, dim, halo_number, 0, i);
halo_posy = ArrayAccess2D_n2(halo_pos, dim, halo_number, 1, i);
halo_posz = ArrayAccess2D_n2(halo_pos, dim, halo_number, 2, i);
halo_rad = halo_R[i];
for(vol_j=0; vol_j<shell_bins; vol_j++){
volume[vol_j] = shell_volume((vol_j+1)*halo_rad*rmax_fac/(shell_bins*1000), vol_j*halo_rad*rmax_fac/(shell_bins*1000)); }
for(k=0; k<par_number; k++){
float par_posx, par_posy, par_posz, dist;
par_posx = ArrayAccess2D_n2(par_pos, par_number, dim, k, 0);
par_posy = ArrayAccess2D_n2(par_pos, par_number, dim, k, 1);
par_posz = ArrayAccess2D_n2(par_pos, par_number, dim, k, 2);
dist = pb_distance(boxsize*1000, halo_posx, halo_posy, halo_posz, par_posx, par_posy, par_posz); //1000 for boxsize in Mpc
if(dist <= 2*rmax_fac*halo_rad){
for(a=0; a<shell_bins; a++){
if((dist <= halo_rad*(a+1)*rmax_fac/shell_bins) && (dist >= halo_rad*a*rmax_fac/shell_bins)){
count[a] += 1; }
}
}
}
for(b=0; b<shell_bins; b++){
out_shell_den[(i-halo_start+0*(1+halo_end-halo_start))*shell_bins+b] = count[b]/volume[b]; //out_shell_den has shape (2, halo_number, shell_bins), 0 for edge, 1 for density
out_shell_den[(i-halo_start+1*(1+halo_end-halo_start))*shell_bins+b] = (2*b+1)*rmax_fac/(shell_bins*2);
}
}
}
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.