[英]Seeking explanation to Dask vs Numpy vs Pandas benchmark results
我正在尝试基准dask
vs pandas
的性能。
def make_pandas(n):
df = pd.DataFrame(np.random.randint(10, size=(n, 3)))
return df
def make_dask(n):
df = da.from_array(np.random.randint(10, size=(n, 3)), chunks=10)
return df
def make_numpy(n):
return np.random.randint(10, size=(n, 3))
def sum_pandas(x): return x[0].sum()
def sum_dask(x): return x[1].sum()
def sum_numpy(x): return x[2].sum()
perfplot.show(
setup=lambda n: [make_pandas(n), make_dask(n), make_numpy(n)],
kernels=[sum_pandas, sum_dask, sum_numpy],
n_range=[2**k for k in range(2, 15)],
equality_check=False,
xlabel='len(df)')
有人可以解释一下结果:
将块分别增加到1000、8000和10000可分别得到:
难道不应该随着大小的增加dask
并行化并变得更好吗?
chunks
关键字是chunksize的缩写,不是chunk的数量
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.