Python多重处理的局限性

Question

我经常运行耗时的程序。 我有机会访问需要504个处理器的群集，但是客户服务速度很慢，所以我向您求助。 我正在使用一个非常简单的应用程序，如下所示：

import multiprocessing

def function(data):
    data = complicated_function_I_was_given(data)
    with open('unique_id', 'w') as f:
        f.write(data)

pool = multiprocessing.Pool(504)
pool.map(function, data_iterator)

现在，尽管我可以看到过程开始了（“ complicated_function_I_was_given”写了很多废话，但使用了唯一的名称，因此我确信不会发生冲突），但是过程似乎真的很慢。 我希望data_iterator某些data可以立即处理，尽管有些数据需要几天的时间，但是1天后什么也没产生。 可能是multiprocessing.Pool（）有限制吗？ 还是它没有将进程分布在不同的节点上（我知道每个节点都有12个核心）？ 我正在使用python2.6.5。

Answer 1

还是它没有将进程分布在不同的节点上（我知道每个节点都有12个核心）？ 我正在使用python2.6.5。

我认为这是您的问题：除非您的集群体系结构非常不寻常，并且所有处理器似乎都在同一台逻辑机上，否则多处理只能访问本地核心。 您可能需要使用其他并行化库。

另请参阅此问题的答案。

Answer 2

您可能会尝试使用Python的许多并行库之一来扩展工作，我还没有听说过可以通过多处理在这么多的处理器上扩展工作。

Python多重处理的局限性

问题描述

2 个解决方案

解决方案1
3 已采纳 2012-02-26 22:38:17

解决方案2
1 2012-02-26 08:38:04

Python多重处理的局限性

问题描述

2 个解决方案

解决方案1 3 已采纳 2012-02-26 22:38:17

解决方案2 1 2012-02-26 08:38:04

解决方案1
3 已采纳 2012-02-26 22:38:17

解决方案2
1 2012-02-26 08:38:04