為什么這個並行函數用於計算最長的公共子序列比串行慢？

Question

LCS的並行計算遵循波前模式。 這是並行函數，它比串行實現慢。 （我認為對角線（平行）與行數（串行）的數量與它有關）

void parallelLCS(char * sequence_a, char * sequence_b, size_t size_a, size_t size_b) {
double start, end;

int ** dp_table = new int*[size_a + 1];

for (int i = 0; i <= size_a; i++)
    dp_table[i] = new int[size_b + 1];

for (int i = 1; i <= size_a; i++)
    dp_table[i][0] = 0;
for (int j = 0; j <= size_b; j++)
    dp_table[0][j] = 0;

int p_threads = 2;
int diagonals = size_a + size_b;

start = omp_get_wtime();
#pragma omp parallel num_threads(p_threads) default(none) firstprivate(p_threads,size_a,size_b,sequence_a,sequence_b) shared(dp_table,diagonals)
{
    for (int curr_diagonal = 1; curr_diagonal <= (diagonals - 1);) {
        int j = omp_get_thread_num() + 1;   //column index
        int i = curr_diagonal - j + 1;      //row index
        for (; j <= curr_diagonal; j += p_threads, i = i - p_threads) {
            if (i <= size_a && j <= size_b) {
                if (sequence_a[i] == sequence_b[j]) {
                    dp_table[i][j] = dp_table[i - 1][j - 1] + 1;
                } else if (dp_table[i - 1][j] >= dp_table[i][j - 1]) {
                    dp_table[i][j] = dp_table[i - 1][j];
                } else {
                    dp_table[i][j] = dp_table[i][j - 1];
                }
            }
        }
        curr_diagonal++;
#pragma omp barrier
    }
}
end = omp_get_wtime();

printf("\nParallel - Final answer: %d\n", dp_table[size_a][size_b]);
printf("Time: %f\n", end - start);

//Delete dp_table
for (int i = 0; i <= size_a; i++)
    delete [] dp_table[i];
delete [] dp_table;
}

這是串口功能

void serialLCS(char * sequence_a, char * sequence_b, size_t size_a, size_t size_b) {
double start, end;
int ** dp_table = new int*[size_a + 1];
for (int i = 0; i <= size_a; i++)
    dp_table[i] = new int[size_b + 1];

for (int i = 1; i <= size_a; i++)
    dp_table[i][0] = 0;
for (int j = 0; j <= size_b; j++)
    dp_table[0][j] = 0;

start = omp_get_wtime();
for (int i = 1; i <= size_a; i++) {
    for (int j = 1; j <= size_b; j++) {
        if (sequence_a[i] == sequence_b[j]) {
            dp_table[i][j] = dp_table[i - 1][j - 1] + 1;
        } else if (dp_table[i - 1][j] >= dp_table[i][j - 1]) {
            dp_table[i][j] = dp_table[i - 1][j];
        } else {
            dp_table[i][j] = dp_table[i][j - 1];
        }
    }
}
end = omp_get_wtime();
printf("\nSerial - Final answer: %d\n", dp_table[size_a][size_b]);
printf("Time: %f\n", end - start);

//Delete dp_table
for (int i = 0; i <= size_a; i++)
    delete [] dp_table[i];
delete [] dp_table;
}

...以為我會添加測試功能

#include <cstdlib>
#include <stdio.h>

#include <omp.h>

void serialLCS(char * sequence_a, char * sequence_b, size_t size_a, size_t size_b);
void parallelLCS(char * sequence_a, char * sequence_b, size_t size_a, size_t size_b);

int main() {

size_t size_a;
size_t size_b;

printf("Enter size of sequence A: ");
scanf("%zd",&size_a);
printf("Enter size of sequence B: ");
scanf("%zd",&size_b);

//keep larger sequence in sequence_a
if (size_b > size_a) size_a ^= size_b ^= size_a ^= size_b;

char * sequence_a = new char[size_a + 1];
char * sequence_b = new char[size_b + 1];
sequence_a[0] = sequence_b[0] = '0';

const size_t alphabet_size = 12;
char A[alphabet_size] = {'A', 'T', 'G', 'C', 'Q', 'W', 'E', 'R', 'Y', 'U', 'I', 'O'};
char AA[alphabet_size] = {'T', 'C', 'A', 'G', 'R', 'E', 'W', 'Q', 'O', 'I', 'U', 'Y'};

for (size_t i = 1; i < size_a; i++) {
    sequence_a[i] = A[rand() % alphabet_size];
}
for (size_t i = 1; i < size_b; i++) {
    sequence_b[i] = AA[rand() % alphabet_size];
}

serialLCS(sequence_a, sequence_b, size_a, size_b);
parallelLCS(sequence_a, sequence_b, size_a, size_b);

delete [] sequence_a;
delete [] sequence_b;

return 0;
}

Answer 1

問題不在於OpenMP，而在於您在並行實現中訪問數據的方式。 即使您只使用一個線程運行並行版本，它仍然是慢兩倍。

好吧，歡迎來到非緩存友好數據結構的世界。 由於對角線的依賴性，你可以通過對角線走向矩陣，但是你仍然以通常的方式存儲它。 然后，數據訪問模式是非線性的，因此對緩存不友好。 在舊的16核Xeon X7350系統上以單線程模式運行代碼時，觀察L1和L2緩存未命中的數量：

L1和L2緩存未命中

進程時間軸的綠色部分代表代碼的序列部分。 橙色部分是（由於單線程執行而無效）OpenMP parallel區域。 您可以清楚地看到串行代碼非常適合緩存 - 不僅L2緩存未命中數量相對較低，而且L1緩存的數量也很少。 但是在代碼的並行部分中，由於沿着對角線行走矩陣時非常大的步幅，緩存不斷被破壞，並且未命中的數量很高。

有兩個線程的事情變得更糟。 來自屬於同一矩陣行的兩個相鄰對角線的元素可能落入相同的高速緩存行。 但是其中一個對角線由一個線程處理，另一個由另一個線程處理。 因此，您的代碼會遇到大量的錯誤共享。 更不用說現代多插槽AMD64或（后）Nehalem系統上的NUMA問題。

解決方案不是簡單地通過其對角線走動矩陣，而且還以傾斜的格式存儲矩陣，使得每個對角線占據存儲器中的連續部分。

為什么這個並行函數用於計算最長的公共子序列比串行慢？

問題描述

1 個解決方案

解決方案1
8 已采納 2012-11-14 09:39:27

為什么這個並行函數用於計算最長的公共子序列比串行慢？

問題描述

1 個解決方案

解決方案1 8 已采納 2012-11-14 09:39:27

解決方案1
8 已采納 2012-11-14 09:39:27