[英]Can a thread-local copy of select elements be created of a shared 2D array in a parallel region? (Shared, private, barrier: OPenMP)
我有n
x n
元素的二維網格。 在一次迭代中,我通過平均一個鄰居的值來計算一個元素的值。 那是:
for(int i=0;i<n;i++)
for(int j=0;j<n;j++)
grid[i][j] = (grid[i-1][j] + grid[i][j-1] + grid[i+1][j] + grid[i][j+1])/4.0;
我需要運行上面的嵌套循環iter
迭代次數。 我需要的是以下內容:
iter
迭代的循環將順序運行,但在每次迭代期間 ,應並行計算每個i
和j
的grid[i][j]
的值。 為此,我有以下想法和問題:
grid[i][j]
所需的網格中選擇的4個元素的副本。 (基本上,所有線程都共享網格,但是每個線程中也有4 個特定於迭代的元素的本地副本。) 這可能嗎? barrier
才能使所有線程完成然后開始下一個迭代? 我對OpenMP的思維方式還很陌生,而我完全迷失在這個簡單的問題中。 如果有人可以幫助解決我的困惑,我將不勝感激。
在實踐中,您想要的線程數比網格點數少得多,因此每個線程將計算一整束點(例如,一行)。 啟動OpenMP(或任何其他類型的)線程有一定的開銷,並且您的程序將始終受內存限制,而不是受CPU限制。 因此,為每個網格點啟動一個線程將使並行化計算的全部目的無效。 因此,不建議您使用第一個想法(盡管我不確定我是否正確理解它;也許這不是您的建議)。
我建議(其他人在OP注釋中也指出),您應該分配兩倍的存儲網格值所需的內存,並使用兩次在兩次迭代之間交換的指針:一個指向保存只讀的先前迭代值的內存,另一個指向存儲只讀值的內存。到只寫的新迭代值。 請注意,您將只交換指針,而不實際復制內存。 迭代完成后,您可以將最終結果復制到所需的位置。
是的,您需要在迭代之間同步線程,但是在OpenMP中,這通常可以通過在迭代循環中打開並行區域來隱式完成(在並行區域的末尾有一個隱式屏障):
for (int iter = 0; iter < niter; ++iter) { #pragma omp parallel { // get range of points for current thread // loop over thread's points and apply the stencil } }
或者,使用parallel for
構造:
const int np = n*n; for (int iter = 0; iter < niter; ++iter) { #pragma omp parallel for for (int ip = 0; ip < np; ++ip) { const int i = ip / n; const int j = ip % n; // apply the stencil to [i,j] } }
第二個版本將自動在可用線程之間平均分配工作,這很可能是您想要的。 首先,您必須手動進行。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.