為什么 MPI 和 OpenMP 合並排序比我的順序代碼慢？

Question

我在 C 中編寫了合並排序的代碼。 我使用 OpenMP 和 MPI 依次應用了這個算法。 我使用了一個包含 100 個隨機元素的數組。 順序代碼如下：


int main(){
    int N = 100;
    int my_array[N];
    int outputArray[N];
    int length = sizeof(my_array) / sizeof(my_array[0]);
    double start_time, end_time;
    srand(time(NULL));
    int i;
    for (i=0; i<N; i++){
        my_array[i]=rand()%100 + 1;
    }
    //print the array 
    for (i=0; i<N; i++){
        printf("%d ", my_array[i]);
    }   

    printf("\n--------------\n");
    start_time = MPI_Wtime();
    mergeSort(my_array, 0, length-1, outputArray); 
    end_time = MPI_Wtime();
    for(i=0; i<N; i++){
        printf("%d ", my_array[i]);
    }
    printf("\n");
    printf("\n Tempo impiegato: %f ", (end_time - start_time));
} 


void merge(int arr[], int indexA, int indexB, int end, int arrOut[]){
    int i=indexA, j=indexB, k=indexA;
    while(i<=indexB-1 && j<=end){
        if(arr[i]<arr[j]){
            //i=i+1;
            arrOut[k]=arr[i++];
        }
        else{
            //j=j+1;
            arrOut[k]=arr[j++];
        }
        k++;
    }
    while(i<=indexB-1){
        //i++;
        arrOut[k]=arr[i++];
        k++;
    }
    while(j<=end){
        //j++;
        arrOut[k]=arr[j++];
        k++;
    }
    for(i=indexA; i<=end; i++)
        arr[i]=arrOut[i];
}

void mergeSort(int arr[], int inf, int sup, int arrOut[]){
    int medium;
    if(inf<sup){
        medium=(inf+sup)/2;
        mergeSort(arr, inf, medium, arrOut);
        mergeSort(arr, medium+1, sup, arrOut);
        merge(arr, inf, medium+1, sup, arrOut);
    }
}

然后，使用 MPI 的實現如下（它在創建隨機數組之后開始）：

    MPI_Init(&argc, &argv);
    MPI_Comm_rank(MPI_COMM_WORLD, &rank);
    MPI_Comm_size(MPI_COMM_WORLD, &n_ranks);
    start_time = MPI_Wtime();

    size=N/n_ranks;
    sub_array=malloc(size*sizeof(int));
    temp=malloc(size*sizeof(int));
    MPI_Scatter(my_array, size, MPI_INT, sub_array, size, MPI_INT, 0, MPI_COMM_WORLD);
    mergeSort(sub_array, 0, length-1, temp);
    MPI_Gather(sub_array, size, MPI_INT, outputArray, size, MPI_INT, 0, MPI_COMM_WORLD);

    if(rank==0){
        int *temp_array=malloc(N*sizeof(int));
        mergeSort(outputArray, 0, length-1, temp_array);
        for(i=0; i<N; i++){
            printf("%d ", temp_array[i]);
        }
        free(temp_array);
    }

    //free(&my_array);
    free(sub_array);
    free(temp);

    //MPI_Barrier(MPI_COMM_WORLD);
    end_time = MPI_Wtime();

EDITED CODE OPENMP：最后是OpenMP（主要是一樣的）

void parallelMergeSort(int arr[], int inf, int sup, int arrOut[], int level){
    if (level==0){
        #pragma omp parallel
        #pragma omp single
        parallelMergeSort(arr, inf, sup, arrOut, 1);
    }
    else if(level<8){
        #pragma omp task shared(arr, arrOut)
        {
            parallelMergeSort(arr, inf, (inf+sup)/2, arrOut, level+1);
        }
        #pragma omp task shared(arr, arrOut)
        {
            parallelMergeSort(arr, (inf+sup)/2 + 1, sup, arrOut, level+1);
        }
    }
    #pragma omp taskwait
    {
        mergeSort(arr, inf, sup, arrOut);
    }   
}

如果我將這些代碼應用於包含 100 個元素的數組，則 MPI 和 OpenMP 代碼的執行時間會更長。 時間順序：0.000044

時間 OpenMP：0.00949953

時間 MPI：0.003077

編輯：如果我嘗試使用 10^6 個隨機元素，結果如下：

時序：0.899016

時間 OpenMP：分段錯誤

Time MPI: 25.625195 如何改進這些結果？

Answer 1

我不知道 MPI，所以我只回答問題的 OpenMP 部分。 在不更改算法的情況下，您的mergeSort function 的 OpenMP 版本應如下所示：

void parallelMergeSort(int arr[], int inf, int sup, int arrOut[], int level){
    if(inf<sup){
        int medium=(inf+sup)/2;
        #pragma omp task shared(arr, arrOut) if(level>0)
          parallelMergeSort(arr, inf, medium, arrOut, level-1);   
        parallelMergeSort(arr, medium+1, sup, arrOut, level-1);
        #pragma omp taskwait
         merge(arr, inf, medium+1, sup, arrOut);
    }
}

我使用了if(level>0)子句來避免啟動太多任務。 在我的計算機上，使用level=4可以縮短運行時間，但當然它取決於可用內核的數量和陣列的大小。 請注意，在第二個parallelMergeSort function 調用之前，我沒有使用第二個#pragma omp task行，因為這樣運行速度會更快。 您應該使用以下命令調用此 function：

#pragma omp parallel
#pragma omp single
parallelMergeSort(my_array, 0, length-1, outputArray,4);

如果您想更改算法以獲得更好的並行化，請閱讀我在評論中鏈接的文檔。

為什么 MPI 和 OpenMP 合並排序比我的順序代碼慢？

問題描述

1 個解決方案

解決方案1
0 2022-01-27 17:38:09

為什么 MPI 和 OpenMP 合並排序比我的順序代碼慢？

問題描述

1 個解決方案

解決方案1 0 2022-01-27 17:38:09

解決方案1
0 2022-01-27 17:38:09