[英]How to scatter and gather a list of python of objects in mpi4py
我有一个100,000个python 对象的列表,我希望将它们分散在mpi4py
。
当我尝试使用8个处理器时,我得到:
SystemError:负大小传递给PyBytes_FromStringAndSize
在散射。
当我尝试使用64个处理器时,我遇到了同样的错误,但是却越来越多。
当我尝试从列表中制作对象数组并使用Gather和Scatter时,出现一个错误,该错误基本上表明该数组的dtype不能是对象。
有什么办法可以使它正常工作吗? 还是我可以使用MPI以外的其他工具?
我正在8节点,64 ppn的计算机上运行此程序。
使用散点图和聚集,示例了一个将numpy数组拆分为100000项的示例。
import numpy as np
from mpi4py import MPI
from pprint import pprint
comm = MPI.COMM_WORLD
pprint("-" * 78)
pprint(" Running on %d cores" % comm.size)
pprint("-" * 78)
N = 100000
my_N = N // 8
if comm.rank == 0:
A = np.arange(N, dtype=np.float64)
else:
A = np.empty(N, dtype=np.float64)
my_A = np.empty(my_N, dtype=np.float64)
# Scatter data
comm.Scatter([A, MPI.DOUBLE], [my_A, MPI.DOUBLE])
pprint("After Scatter:")
for r in range(comm.size):
if comm.rank == r:
print("[%d] %s" % (comm.rank, len(my_A)))
comm.Barrier()
# Allgather data into A
comm.Allgather([my_A, MPI.DOUBLE], [A, MPI.DOUBLE])
pprint("After Allgather:")
for r in range(comm.size):
if comm.rank == r:
print("[%d] %s" % (comm.rank, len(A)))
comm.Barrier()
您也可以在这里和这里检查scatterv
和gatherv
,更多示例 。
我不确定这是否是答案,也不确定您是否还在寻找答案,但是...
因此,您有100,000个python 对象 。 如果这些对象是常规数据(数据集),而不是某个类的实例,则将数据作为json字符串传递。 像这样:
#!/usr/bin/env python
import json
import numpy as np
from mpi4py import MPI
comm = MPI.COMM_WORLD
if comm.rank == 0:
tasks = [
json.dumps( { 'a':1,'x':2,'b':3 } ),
json.dumps( { 'a':3,'x':1,'b':2 } ),
json.dumps( { 'a':2,'x':3,'b':1 } )
]
else:
tasks = None
# Scatter paramters arrays
unit = comm.scatter(tasks, root=0)
p = json.loads(unit)
print "-"*18
print("-- I'm rank %d in %d size task" % (comm.rank,comm.size) )
print("-- My paramters are: {}".format(p))
print "-"*18
comm.Barrier()
calc = p['a']*p['x']**2+p['b']
# gather results
result = comm.gather(calc, root=0)
# do something with result
if comm.rank == 0:
print "the result is ", result
else:
result = None
请注意,如果您只有8个节点/核心,则必须在tasks
列表中创建8条记录,并依次分散和收集所有100,000个数据集。 如果所有数据集都在ALLDATA
列表中,则代码可能如下所示:
def calc(a=0,x=0,b=0):
return a*x**2+b
if comm.rank == 0: collector = []
for xset in zip(*(iter(ALLDATA),) * comm.size):
task = [ json.dumps(s) for s in xset ]
comm.Barrier()
unit = comm.scatter(task if comm.rank == 0 else None, root=0)
p = json.loads(unit)
res = json.dumps( calc(**p) )
totres = comm.gather(res, root=0)
if comm.rank == 0:
collector += [ json.loads(x) for x in totres ]
if comm.rank == 0:
print "the result is ", collector
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.