繁体   English   中英

如何使用dask在并行任务中填充DataFrame?

[英]How to use dask to populate DataFrame in parallelized task?

我想使用dask来并行化一个数字运算任务。

该任务仅利用我计算机中的一个内核。

作为该任务的结果,我想通过shared_df.loc[len(shared_df)] = [x, 'y']将一个条目添加到DataFrame中。 我的计算机中的所有(四个)并行工作人员/线程应填充此DataFrame。

我必须如何设置dask才能执行此操作?

粗略概述执行此类操作的正确方法:

  • 创建一个函数,该函数针对给定参数返回总数据中某些部分的数据框

  • 将此函数包装在dask.delayed ,为每个输入参数创建调用列表,并使用dd.from_delayed创建dask- dd.from_delayed

  • 如果您确实需要对索引进行排序,并且索引需要沿着与上一步中应用的分块不同的行进行分区,则可能需要执行set_index

请阅读每个步骤的文档字符串和示例!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM