我有一个独立的 python 脚本的简单示例,它在我的桌面上运行,它有 4 个 CPU 节点,目前需要 0.735 秒。 目标是在我的 Linux 上使用单独的进程来克服 GIL 等的限制。 这是相应的串行执行,仅进行了微不足道的修改,耗时 0.0024 秒。 我哪里错了? 至少对于这种微不足道的数 ...
我有一个独立的 python 脚本的简单示例,它在我的桌面上运行,它有 4 个 CPU 节点,目前需要 0.735 秒。 目标是在我的 Linux 上使用单独的进程来克服 GIL 等的限制。 这是相应的串行执行,仅进行了微不足道的修改,耗时 0.0024 秒。 我哪里错了? 至少对于这种微不足道的数 ...
我收到以下错误: TypeError: object list can't be used in 'await' expression 当我尝试以dask_client.gather(futures)或await futures时。 我正在使用asynchronous=True的 Dask Cli ...
当我运行我的 dask worker 时,我通过日志从他们那里收集有用的信息,但偶尔日志会被关于 unmanaged memory 的错误完全淹没。具体来说,这个错误会填满日志并使任何其他问题无法修复: 我已经调整了 yaml 文件中的日志级别以抑制任何低于错误级别的内容,但我确实想保留一些正常信 ...
赏金将在 6 天后到期。 此问题的答案有资格获得+150声望赏金。 ps0604想提请更多人注意这个问题。 当我运行 dask rolling function 来计算移动平均值时出现此错误: 错误: 分区大小小于重叠 window 大小。 尝试使用“df.repartition”来增加分区大小 ...
我在dask 的网站上阅读了带标题的句子,想知道它是什么意思。 为了便于参考,我将相关部分摘录如下: Dask Array 用户的一个常见性能问题是他们选择的块大小要么太小(导致大量开销),要么与他们的数据对齐不佳(导致读取效率低下)。 虽然最佳大小和形状是高度特定于问题的,但很少看到大小低于 ...
赏金将在 6 天后到期。 此问题的答案有资格获得+100声望赏金。 chameau13想引起更多人对这个问题的关注。 如果社区可以启发我将 function 应用于 Dask 数组的每一列的最有效方法,那就太好了。 如下所述,我尝试了很多方法,但我仍然怀疑我对 Dask 的使用相当业余。 我有一 ...
语境我正在尝试使用 dask distributed 和以前项目中的一些遗留代码编写数据管道。 get_data只需将url:str和session:ClientSession获取为 arguments 并返回 pandas DataFrame。from dask.distributed imp ...
我喜欢使用dd.persist()运行异步 dask dataframe 计算,然后能够跟踪单个分区状态。 目标是以非阻塞方式访问部分结果。 这里是所需的伪代码: 使用 dask futures 效果很好,但是与单个dd.persist()相比,提交许多单独的分区非常慢,并且每个分区有一个 futu ...
我的原始脚本使用 pool.map 并行运行。 我将代码中的记录器设置为 output 到一个文件,并且在不同进程中运行的代码 output 记录到同一个文件中。 现在我尝试使用 dask 进行多处理,发现记录器设置在其他进程中无效。 我的代码可以简化如下: 但我在控制台或文件中什么也看不到。 我试 ...
通过客户端提交的function的日志立即显示出来。 相反,日志应该显示在client.gather(futures)上。 使用延迟但不能使用期货可以实现预期的行为。 这是重现问题的代码: 上面添加的代码将已经显示提交日志,如下所示。 Output: client.gather client.g ...
我有两个在我的计算中相互依赖的数据框,我想通过一个compute()调用来获得两者的结果。 代码可以总结如下: 非常感谢您的帮助 ...
我尝试在 linux 中使用多进程但每个进程设置单线程的 dask localcluster,但到目前为止失败: 发生的事情是 dask 确实启动了两个进程(通过 spawn_main),但每个进程都有 7 个线程。 除此之外,主进程本身(我使用 python -m 启动)有 20 个线程。 我也 ...
赏金将在 3 天后到期。 此问题的答案有资格获得+150声望赏金。 ps0604想引起更多的关注这个问题。 在等宽离散化中,变量值被分配给相同宽度的区间。 区间数由用户定义,宽度由最小值/最大值和区间数确定。 例如,给定值 10、20、100、130,最小值为 10,最大值为 130。如果用户将 ...
我有一个在 Docker 容器上运行工作人员的 Dask 分布式应用程序。 问题是,当我运行 SQLAlchemy read_sql_query 语句时,我在工作人员中遇到异常,说Exception: cannot pickle 'weakref' object 注意:这在本地工作人员中运行良好, ...
我正在尝试使用 dd.read_sql_query 加载带有 SQLAlchemy 的 Dask dd.read_sql_query 。 我定义了一个表,其中一列balance_date类型为 DateTime(在数据库中为 DATE 类型): 问题是dd.read_sql_query失败,因为它说 ...
如何正确序列化metpy单元(基于品脱)以使用dask分布式? 据我了解,它看起来像 dask 分布式自动腌制数据以便于传输,但未能腌制计算所需的metpy单元。 产生的错误: TypeError: cannot pickle 'weakref' object 。 MWE 下面。 编辑:添加了完 ...
我有银行账户记录,其中每一行是账户的每月余额: 假设有 1000 万个账户和 10 年的数据。 我需要做的是将 function 应用到每个帐户。 例如,对于每个帐户,我需要取 10 年的平均值并计算该平均值与该日期余额之间的差异。 对于帐户 1111,它将如下所示(平均值为 1200): 这是我的 ...
我试图了解 dask.foldby 的工作原理。 考虑以下代码。 我创建了一个包含 100 件物品的 dask 包。 然后我按某个分组 function 折叠项目,计算 5 个总和。 当我查看 res 任务图时,我看到: 折叠的结果似乎存储在单个工作人员/单个分区中(我不太确定 1 个分区 = 1 ...
假设我有一些 function 然后我延迟并计算: 是否有可能从f中得到Jim的名字? 我可以向工作人员询问与当前任务关联的密钥吗? 我找到了这篇旧帖子,以下内容让我得到了一些可能有用的东西,但它不是Jim ,它是由 dask 生成的: ...
ModuleNotFoundError: No module named 'src.data_processing' 异常被忽略:<function Pool。 删除0x7f593e7a95e0> ...