[英]Write data to hdf file using multiprocessing
这似乎是一个简单的问题,但我无法理解它。
我有一个在双循环中运行的模拟,并将结果写入HDF文件。 该程序的简单版本如下所示:
import tables as pt
a = range(10)
b = range(5)
def Simulation():
hdf = pt.openFile('simulation.h5',mode='w')
for ii in a:
print(ii)
hdf.createGroup('/','A%s'%ii)
for i in b:
hdf.createArray('/A%s'%ii,'B%s'%i,[ii,i])
hdf.close()
return
Simulation()
这段代码正是我想要的,但由于这个过程可能需要很长时间才能运行,我尝试使用多处理模块并使用以下代码:
import multiprocessing
import tables as pt
a = range(10)
b = range(5)
def Simulation(ii):
hdf = pt.openFile('simulation.h5',mode='w')
print(ii)
hdf.createGroup('/','A%s'%ii)
for i in b:
hdf.createArray('/A%s'%ii,'B%s'%i,[ii,i])
hdf.close()
return
if __name__ == '__main__':
jobs = []
for ii in a:
p = multiprocessing.Process(target=Simulation, args=(ii,))
jobs.append(p)
p.start()
然而,这仅将最后一次模拟打印到HDF文件,不知何故它会覆盖所有其他组。
每次以write( w
)模式打开文件时,都会创建一个新文件 - 因此如果该文件已存在,则该文件的内容将丢失。 只有最后一个文件句柄才能成功写入该文件。 即使您将其更改为追加模式,也不应尝试从多个进程写入同一文件 - 如果两个进程同时尝试写入,则输出将会出现乱码。
相反,让所有工作进程将输出放在队列中,并且只有一个专用进程 (子进程或主进程)处理队列的输出并写入文件:
import multiprocessing as mp
import tables as pt
num_arrays = 100
num_processes = mp.cpu_count()
num_simulations = 1000
sentinel = None
def Simulation(inqueue, output):
for ii in iter(inqueue.get, sentinel):
output.put(('createGroup', ('/', 'A%s' % ii)))
for i in range(num_arrays):
output.put(('createArray', ('/A%s' % ii, 'B%s' % i, [ii, i])))
def handle_output(output):
hdf = pt.openFile('simulation.h5', mode='w')
while True:
args = output.get()
if args:
method, args = args
getattr(hdf, method)(*args)
else:
break
hdf.close()
if __name__ == '__main__':
output = mp.Queue()
inqueue = mp.Queue()
jobs = []
proc = mp.Process(target=handle_output, args=(output, ))
proc.start()
for i in range(num_processes):
p = mp.Process(target=Simulation, args=(inqueue, output))
jobs.append(p)
p.start()
for i in range(num_simulations):
inqueue.put(i)
for i in range(num_processes):
# Send the sentinal to tell Simulation to end
inqueue.put(sentinel)
for p in jobs:
p.join()
output.put(None)
proc.join()
为了比较,这是一个使用mp.Pool
的版本:
import multiprocessing as mp
import tables as pt
num_arrays = 100
num_processes = mp.cpu_count()
num_simulations = 1000
def Simulation(ii):
result = []
result.append(('createGroup', ('/', 'A%s' % ii)))
for i in range(num_arrays):
result.append(('createArray', ('/A%s' % ii, 'B%s' % i, [ii, i])))
return result
def handle_output(result):
hdf = pt.openFile('simulation.h5', mode='a')
for args in result:
method, args = args
getattr(hdf, method)(*args)
hdf.close()
if __name__ == '__main__':
# clear the file
hdf = pt.openFile('simulation.h5', mode='w')
hdf.close()
pool = mp.Pool(num_processes)
for i in range(num_simulations):
pool.apply_async(Simulation, (i, ), callback=handle_output)
pool.close()
pool.join()
它看起来更简单不是吗? 然而,有一个显着的区别。 原始代码使用output.put
将args发送到在其自己的子output.put
中运行的handle_output
。 handle_output
将从output
队列中获取args
并立即处理它们。 使用上面的Pool代码, Simulation
会在result
累积一大堆args
,并且在Simulation
返回之前, result
不会发送到handle_output
。
如果Simulation
需要很长时间,那么将会有很长的等待时间,而没有任何内容被写入simulation.h5
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.