簡體 English 中英

令人尷尬的並行執行，沒有加速（MEEP，openMPI）

[英]Embarrasingly parallel execution, no speedup (MEEP, openMPI)

原文 2016-10-13 13:02:25 1 2 parallel-processing/ mpi/ meep

我一直在嘗試利用並行化來使用MEEP仿真軟件更快地運行一些仿真。 默認情況下，軟件僅使用一個CPU，並且通過並行化可以輕松加快FDTD模擬。 最后我發現運行1或4個核心沒有區別，模擬時間是相同的。

然后我想我會在每個核心上運行單獨的模擬以增加我的總模擬吞吐量（例如同時運行4個不同的模擬）。

我發現令人驚訝的是，每當我開始一個新的模擬時，即使它們在不同的核心上運行，已經開始的模擬也會變慢。 例如，如果我在1個核心上僅運行1次模擬，則FDTD模擬的每個時間步長大約需要0.01秒。 如果我在另一個核心上啟動另一個進程，每個模擬現在每個步驟花費0.02秒，依此類推，這意味着即使我在不同的核心上運行彼此無關的不同模擬，它們都會減速給我凈增速。

我並不一定尋求幫助來解決這個問題，因為我正在尋求幫助來理解它，因為它使我的好奇心達到了頂峰。 模擬的每個實例都需要不到總內存的1％，因此這不是內存問題。 我唯一能想到的是內核共享緩存，或者內存帶寬已經飽和，有沒有辦法檢查是否是這種情況？

模擬非常簡單，我運行的程序比這個程序的內存要多得多，並且在並行化方面有很大的加速。

有什么提示可以幫助我理解這種現象嗎？

2 個解決方案

我認為應該更好地研究更大的模擬，因為像技術這樣的渦輪增強的眾所周知的問題（單核心性能隨線程數量的變化）無法解釋你的結果。 它將解釋是否有一個核心處理器。

所以，我認為可以用內存緩存級別來解釋。 也許如果你嘗試比L3 Cache更大的模擬（i7> 8MB）。

我對Intel（R）Core（TM）i7-3517U CPU @ 1.90GHz雙核（4線程）的測試。 1 mpi螺紋的所有模擬（-np 1）

10mb模擬：

四個模擬0.0255秒/步
兩個模擬0.0145秒/步
一個模擬0.0129秒/步
100mb模擬：
四個模擬1.13秒/步
兩次模擬0.61秒/步
一次模擬0.53秒/步

奇怪的是，兩個模擬的2個線程的運行速度幾乎與兩個模擬的線程相同。

JVM（令人尷尬）並行處理庫/工具

[英]JVM (embarrasingly) parallel processing libraries/tools

矢量化和令人尷尬的並行之間有什么關系？

[英]What is the relationship between vectorization and embarrasingly parallel?

加速並行計算

[英]Speedup of parallel computation

並行加速和效率

[英]Parallel Speedup and Efficiency

使用OpenMP進行並行加速

[英]Parallel speedup with OpenMP

OpenMP：在並行工作負載中沒有加速

[英]OpenMP: No Speedup in parallel workloads

Orca 和 OpenMPI 用於並行作業的問題

[英]Problems with Orca and OpenMPI for parallel jobs

OpenMP令人尷尬地並行循環，沒有加速

[英]OpenMP embarrassingly parallel for loop, no speedup

Guile Scheme並行表單加速

[英]Guile Scheme parallel forms speedup

Eclipse PTP OpenMPI並行運行/調試

[英]Eclipse PTP OpenMPI parallel run/debug

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 JVM（令人尷尬）並行處理庫/工具矢量化和令人尷尬的並行之間有什么關系？加速並行計算並行加速和效率使用OpenMP進行並行加速 OpenMP：在並行工作負載中沒有加速 Orca 和 OpenMPI 用於並行作業的問題 OpenMP令人尷尬地並行循環，沒有加速 Guile Scheme並行表單加速 Eclipse PTP OpenMPI並行運行/調試

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM