在python多處理中測量浪費的時間

Question

有沒有一種方法可以衡量一個multiprocessing.Pool過程的每個子進程多少時間， multiprocessing.Pool花在等待輸入上的時間與他們花在處理數據上的時間上是多少？

讓我們看一個簡單的示例，它並行處理文件的行：

from multiprocessing import Pool
pool = Pool(processes=16)
with open('a_large_file.txt', 'r') as f:
    for foo in pool.imap_unordered(a_slow_function, f, chunksize=100)
        do_something_with(foo)

根據a_slow_function需要多長時間，我們從f讀取數據的速度以及塊的大小，我的子a_slow_function最終可能會在等待數據的同時搖動手指。 我可以測量嗎？

我最好的猜測，到目前為止是包裝cProfile.runctx周圍a_slow_function 。 這樣就為每個工作人員生成了一個配置文件，然后可以將其與腳本的總運行時間進行比較。 但是， do_something_with(foo)會使結果傾斜，因此我必須考慮到這一點。 有沒有更清潔的方法可以做到這一點？

注意：我不介意解決方案是否涉及特定於Linux的工具。

Answer 1

您可以嘗試使用line_profiler （線路分析器）來獲取時間

for foo in pool.imap_unordered(a_slow_function, f, chunksize=100)

行和a_slow_function的總時間，然后比較這兩個數字。

我不確定這是否是個好主意，但是仍然是個好主意。

您也可以嘗試單獨計時，例如查看可以多快讀取文件中的行：

例如。

for line in f: pass

在python多處理中測量浪費的時間

問題描述

1 個解決方案

解決方案1
1 2013-09-20 16:14:35

在python多處理中測量浪費的時間

問題描述

1 個解決方案

解決方案1 1 2013-09-20 16:14:35

解決方案1
1 2013-09-20 16:14:35