標簽[openmp] - 堆棧內存溢出

[英]Why rxode2 cannot build model after I installed OpenMP

我正在嘗試使用rxode2 package 創建 PK model。不幸的是，在運行以下代碼后，我收到一條錯誤消息，指出error building model 。因為我使用的是 Mac（操作系統版本 12.6.6），所以我按照此處的說明操作，因為我看到消息說rxode2未檢測到 OpenMP ...

為什么 OpenMP 縮減失敗並顯示錯誤消息“找不到‘avgs’的用戶定義縮減？”

[英]Why is OpenMP reduction failing with error message 'user defined reduction not found for 'avgs'?'

為什么減少此代碼會引發錯誤：我希望這段代碼使每個並行線程的avgs值私有化，然后在 for 循環執行結束時將它們加在一起。 ...

OpenMP 強制執行創建任務的順序

[英]OpenMP enforce the order in which tasks are created

我是 OpenMP 的新手，認為我的用例並不簡單——因此尋找方法上的指示。有沒有辦法強制執行任務，以便它們在 OpenMP 中生成？我想達到的效果如下我的數據是一個包含序列號和傳感器 ID 的數據包。必須為每個傳感器 ID 維護序列號的順序，但不同的傳感器 ID 可以並行執行。在偽代碼中 - ...

OpenMP 任務指令多線程比單線程慢

[英]OpenMP task directive slower multithreaded than singlethreaded

我遇到了一個問題，任務指令似乎會隨着我擁有的線程越多而減慢代碼的執行時間。現在我已經從我的代碼中刪除了所有與問題無關的不必要的東西，因為即使對於這段實際上沒有做任何事情的精簡代碼，問題仍然存在。但是我對這段代碼的總體想法是讓主線程生成任務供所有其他工作線程執行。我從運行程序中得到以下 outp ...

Linux 性能和 MKL

[英]Linux perf and MKL

我一直在嘗試分析我們的應用程序（amd64 RHEL 7.6 使用 GCC 5.3 構建並使用 MKL + OMP）。我使用了 perf record，但我看到的只是 OMP 庫中的少量樣本。 main() 或以下沒有任何內容。這是一次 10 分鍾的跑步，還有一次只持續一秒鍾左右。 MKL ...

在 C++ 的並行 PRNG 中取得領先

[英]Jumping ahead in parallelised PRNGs in C++

我正在實施蒙特卡洛模擬，我需要運行一些動力學的多個實現，然后對所有模擬的最后 state 取平均值。由於實現的數量很大，我使用 OpenMP 並行運行它們。每個實現都從相同的初始條件開始，然后在每個時間步以給定的概率發生一個過程，並確定我從均勻分布中抽取隨機數的過程。我想確保所有模擬在統計上都 ...

pragma omp for 直方圖上的原子操作

[英]pragma omp for of atomic operations on a histogram

我在有效並行化下一行代碼時遇到了麻煩：這運行，我猜是由於開銷的omp for ，比這慢：有沒有辦法讓這個 go 更快？ ...

CUDA kernel 用於確定比 OpenMP 代碼慢的素數 - 我該如何優化它？

[英]CUDA kernel for determining primes slower than OpenMP code - how can I optimize it?

為了在 C++ 中使用 CUDA 練習編程。我做了一個練習，其中包括顯示小於 N 的素數。對於每個代碼，我注釋掉了最后一個顯示循環以僅比較計算時間。 Makefile：這是我與 openMP 並行化的代碼，運行時間為 1,306 秒：這是在 1,613 秒內運行的相應 cuda 代碼：直覺 ...

我如何與 OMP 並行化，具有兩個矩陣的數據依賴性

[英]How can I parallelize with OMP, with data dependencies for two matrices

下面顯示的代碼用於通過 Gauss Jordan 方法計算矩陣的逆，將 memory 次訪問減半。這改進了單線程執行時間。我遇到的問題是創建了新的數據依賴性，阻止了我並行化。例如，對於循環 K 或循環 i（具有條件 if i.=k.... 的循環）。我想我們將不得不對代碼進行轉換以消除數據依 ...

OpenMP 中嵌套 for 的並行內循環問題

[英]Issue in parallelising inner loop of a nested for in OpenMP

我需要使用 OpenMP 並行化嵌套循環的內部。他們我做的方式不工作正常。每個線程應該迭代每個 M 點，但只迭代（在第二個循環中）它自己的坐標塊。所以我希望第一個循環從0到M到 go，第二個循環從my_first_coord到my_last_coord 。在我發布的代碼中，程序啟動時有 4 ...

嘗試在 OpenMP 中為 Fortran 並行化一個循環，以解決圓柱坐標系中的拉普拉斯算子

[英]Trying to parallelize a loop in OpenMP for Fortran that solves the laplacian in cylindrical coordinates

如果代碼不是很好，我深表歉意，我是相當新的。我有以下代碼，我不確定如何通過 OpenMP 使其並行，我嘗試將數組 (phi_test) 保留為共享變量，這為我提供了打印點的正確答案，但運行速度慢得多（'這是點（ 60, 50) = 221.84875522778384') 最后的 6-7 位小數每 ...

是否可以追蹤 OpenMP 源代碼？

[英]Is it possible to trace the OpenMP source code?

我想在操作系統層面深入了解OpenMP及其內部機制、數據結構和算法（例如，我假設對於任務親和性，每個地方都有自己的任務隊列，並且在untied tasks的情況下運行隊列之間存在任務遷移/竊取）。是否有描述所有這些東西的技術論文數據庫以及描述 gcc 源代碼樹中哪些文件感興趣的指南？我在 gc ...

是否可以優化這些 fortran 循環？

[英]Is it possible to optimize these fortran loops?

這是我的問題：我有一個帶有一定數量嵌套循環的 fortran 代碼，首先我想知道是否可以優化（重新排列）它們以獲得時間增益？其次我想知道我是否可以使用 OpenMP 來優化它們？我在 fortran 看過很多關於嵌套 do 循環以及如何優化它們的帖子，但我沒有找到適合我的例子。我還在 for ...

cmake 未將所需的 -fopenmp 添加到 linker 命令

[英]cmake not adding needed -fopenmp to linker command

我正在構建一個主要是 Fortran 的程序，但包括一個 C++ 接口庫。這是一個 cmake 項目，你甚至可以在這里找到 github 上的具體分支。我正在使用 cmake 3.25.1 在 Linux 上構建我的問題是有一個 cmake 選項可以使用 OpenMP 構建。 C++ 庫的完整 ...

OpenMP 線程內代碼執行時間的測量不正確

[英]Incorrect measurement of the code execution time inside OpenMP thread

所以我需要測量 for 循環中某些代碼的執行時間。最初，我需要測量幾個不同的活動，所以我寫了一個計時器 class 來幫助我。之后，我嘗試通過使用 OpenMP 並行 for 循環來加快速度。問題是，當並行運行我的代碼時，我的時間測量值變得非常不同——值大約增加了 10 倍。因此，為了避免計時 ...

如何在 openmp 的幫助下知道循環是否可以並行化以進行多線程處理？

[英]How to know if the loops can be parallelized for multithreading with the help of openmp?

我有一個嵌套循環。我想知道是否可以在 openmp 的幫助下並行化外部和內部循環？我認為外循環可以並行化，因為內循環僅取決於列或列的固定值。 ...

沒有崩潰條款的 OpenMP 數據競爭？

[英]OpenMP data races without a collapse clause?

我正在學習 OpenMP 並遇到了崩潰條款的奇怪（對我來說）問題。我的實際代碼比這長很多，但我能夠使用這個簡短的版本重現我的問題：#include <stdio.h> #include <stdlib.h> int main() { size_t nrows = ...

如何在將兩個子矩陣相乘時獲得性能提升？

[英]How to obtain performance enhancement while multiplying two sub-matrices?

我有一個程序將駐留在同一容器矩陣中的兩個子矩陣相乘。我試圖通過使用 OpenMP API 進行並行化來獲得一些性能提升。下面是我使用的乘法算法。該算法按行訪問兩個輸入子矩陣的元素，以增強空間局部性的緩存使用。可以使用哪些其他 OpenMP 指令從該簡單算法中獲得更好的性能？有沒有其他指令 ...

OpenMP 對簡單代碼的依賴

[英]Dependencies with OpenMP on a simple code

我已經很長時間沒有使用 OpenMP 了，我在優化這段代碼時遇到了問題：我想在計算 function 的循環中使用“#pragma omp parallel for”，但有幾個依賴項。我嘗試使用 depend 子句，但我認為讓 a[i] 依賴於 a[i-1] 和 a[i-3] 只會使代碼順序化。 ...

忍不住用 OpenMP 來划分線程工作，用一個線程執行一個指令，用其余線程執行一個並行指令

[英]Can't help dividing thread work with OpenMP, doing one instruction with a single thread and a parallel for with the remaining

我發布了我的代碼的當前版本，就是這個並且已經很好地工作了，但是我想看看是否可以通過執行以下操作來改善時間，讓一個線程在omp single pragma 下執行操作，而另一個在沒有他幫助的情況下執行下面的操作。因此，如果有 8 個線程，則 1 個將執行single部分，而 7 個將執行另一部分。 ...