python中的多处理，多个进程运行相同的指令

Question

我在Python中使用多处理进行并行化。 我正在尝试使用pandas对从excel文件读取的数据块进行并行处理。

我是多处理和并行处理的新手。 在简单代码的实现过程中，

import time;
import os;
from multiprocessing import Process
import pandas as pd
print os.getpid();
df = pd.read_csv('train.csv', sep=',',usecols=["POLYLINE"],iterator=True,chunksize=2);
print "hello";
def my_function(chunk):
    print chunk;
count = 0;
processes = [];
for chunk in df:
    if __name__ == '__main__':
        p = Process(target=my_function,args=(chunk,));
        processes.append(p);
    if(count==4):
        break;
    count = count + 1;

打印“hello”正在执行多次，我猜测创建的单个进程应该在目标而不是主代码上运行。

任何人都可以建议我在哪里错了。

Answer 1

multiprocessing工作方式是创建一个新进程，然后使用目标函数导入该文件。 由于您的最外层范围具有print语句，因此每个进程都会执行一次。

顺便说一下，你应该直接使用Pool而不是Process es。 这是一个清理过的例子：

import os
import time
from multiprocessing import Pool

import pandas as pd

NUM_PROCESSES = 4


def process_chunk(chunk):
    # do something
    return chunk


if __name__ == '__main__':
    df = pd.read_csv('train.csv', sep=',', usecols=["POLYLINE"], iterator=True, chunksize=2)
    pool = Pool(NUM_PROCESSES)

    for result in pool.map(process_chunk, df):
        print result

Answer 2

使用multiprocessing可能不会加速从磁盘读取数据，因为磁盘访问比例如RAM访问或计算要慢得多。 并且文件的不同部分将最终出现在不同的进程中。

使用mmap 可以帮助加快数据访问速度。

如果在开始例如Pool.map 之前对数据文件执行只读mmap ，则每个工作者都可以从共享内存映射文件中读取自己的数据片段并对其进行处理。

python中的多处理，多个进程运行相同的指令

问题描述

2 个解决方案

解决方案1
3 2016-04-30 13:34:11

解决方案2
0 2016-04-30 14:29:16

python中的多处理，多个进程运行相同的指令

问题描述

2 个解决方案

解决方案1 3 2016-04-30 13:34:11

解决方案2 0 2016-04-30 14:29:16

解决方案1
3 2016-04-30 13:34:11

解决方案2
0 2016-04-30 14:29:16