cost 260 ms
dask 分布式代码比相应的串行执行慢 - dask distributed code is slower than corresponding serial execution

我有一个独立的 python 脚本的简单示例,它在我的桌面上运行,它有 4 个 CPU 节点,目前需要 0.735 秒。 目标是在我的 Linux 上使用单独的进程来克服 GIL 等的限制。 这是相应的串行执行,仅进行了微不足道的修改,耗时 0.0024 秒。 我哪里错了? 至少对于这种微不足道的数 ...

如何使特定的 dask 警告静音? - How to silence a specific dask warning?

当我运行我的 dask worker 时,我通过日志从他们那里收集有用的信息,但偶尔日志会被关于 unmanaged memory 的错误完全淹没。具体来说,这个错误会填满日志并使任何其他问题无法修复: 我已经调整了 yaml 文件中的日志级别以抑制任何低于错误级别的内容,但我确实想保留一些正常信 ...

Dask 滚动 function 失败并显示重新分区的消息 dataframe - Dask rolling function fails with message to repartition dataframe

赏金将在 6 天后到期。 此问题的答案有资格获得+150声望赏金。 ps0604想提请更多人注意这个问题。 当我运行 dask rolling function 来计算移动平均值时出现此错误: 错误: 分区大小小于重叠 window 大小。 尝试使用“df.repartition”来增加分区大小 ...

Dask 在内存中的块数通常是活动线程数的两倍——如何理解这一点? - Dask will often have as many chunks in memory as twice the number of active threads - How to understand this?

我在dask 的网站上阅读了带标题的句子,想知道它是什么意思。 为了便于参考,我将相关部分摘录如下: Dask Array 用户的一个常见性能问题是他们选择的块大小要么太小(导致大量开销),要么与他们的数据对齐不佳(导致读取效率低下)。 虽然最佳大小和形状是高度特定于问题的,但很少看到大小低于 ...

在 Dask 数组的列上应用 function - Apply a function over the columns of a Dask array

赏金将在 6 天后到期。 此问题的答案有资格获得+100声望赏金。 chameau13想引起更多人对这个问题的关注。 如果社区可以启发我将 function 应用于 Dask 数组的每一列的最有效方法,那就太好了。 如下所述,我尝试了很多方法,但我仍然怀疑我对 Dask 的使用相当业余。 我有一 ...

如何使 python 记录器设置在 dask 中有效 - how to make python logger setup effective in dask

我的原始脚本使用 pool.map 并行运行。 我将代码中的记录器设置为 output 到一个文件,并且在不同进程中运行的代码 output 记录到同一个文件中。 现在我尝试使用 dask 进行多处理,发现记录器设置在其他进程中无效。 我的代码可以简化如下: 但我在控制台或文件中什么也看不到。 我试 ...

使用 dask 通过客户端提交作业后立即显示日志 - Logs are shown immediately after submitting a job via client on using dask

通过客户端提交的function的日志立即显示出来。 相反,日志应该显示在client.gather(futures)上。 使用延迟但不能使用期货可以实现预期的行为。 这是重现问题的代码: 上面添加的代码将已经显示提交日志,如下所示。 Output: client.gather client.g ...

python/linux中如何控制dask每个worker的线程数? - How do control dask's number of threads per worker in python/linux?

我尝试在 linux 中使用多进程但每个进程设置单线程的 dask localcluster,但到目前为止失败: 发生的事情是 dask 确实启动了两个进程(通过 spawn_main),但每个进程都有 7 个线程。 除此之外,主进程本身(我使用 python -m 启动)有 20 个线程。 我也 ...

在 Dask 中实现等宽间隔特征工程 - Implement Equal-Width Intervals feature engineering in Dask

赏金将在 3 天后到期。 此问题的答案有资格获得+150声望赏金。 ps0604想引起更多的关注这个问题。 在等宽离散化中,变量值被分配给相同宽度的区间。 区间数由用户定义,宽度由最小值/最大值和区间数确定。 例如,给定值 10、20、100、130,最小值为 10,最大值为 130。如果用户将 ...

Dask SQLAlchemy 查询在 Docker 工作人员中失败:异常:无法腌制 'weakref' object - Dask SQLAlchemy query fails in Docker workers: Exception: cannot pickle 'weakref' object

我有一个在 Docker 容器上运行工作人员的 Dask 分布式应用程序。 问题是,当我运行 SQLAlchemy read_sql_query 语句时,我在工作人员中遇到异常,说Exception: cannot pickle 'weakref' object 注意:这在本地工作人员中运行良好, ...

如何序列化metpy(品脱)单位以用于dask分布式? - How to serialize metpy (pint) units for use with dask distributed?

如何正确序列化metpy单元(基于品脱)以使用dask分布式? 据我了解,它看起来像 dask 分布式自动腌制数据以便于传输,但未能腌制计算所需的metpy单元。 产生的错误: TypeError: cannot pickle 'weakref' object 。 MWE 下面。 编辑:添加了完 ...

指示 Dask 在每个分区中包含哪些记录 - Instruct Dask what records to include in each partition

我有银行账户记录,其中每一行是账户的每月余额: 假设有 1000 万个账户和 10 年的数据。 我需要做的是将 function 应用到每个帐户。 例如,对于每个帐户,我需要取 10 年的平均值并计算该平均值与该日期余额之间的差异。 对于帐户 1111,它将如下所示(平均值为 1200): 这是我的 ...

make dask foldby 创建多个分区 - Make dask foldby create multiple partitions

我试图了解 dask.foldby 的工作原理。 考虑以下代码。 我创建了一个包含 100 件物品的 dask 包。 然后我按某个分组 function 折叠项目,计算 5 个总和。 当我查看 res 任务图时,我看到: 折叠的结果似乎存储在单个工作人员/单个分区中(我不太确定 1 个分区 = 1 ...

从原始 function 中获取 dask 延迟对象/任务的名称? - get the name of the dask delayed object/task from within the original function?

假设我有一些 function 然后我延迟并计算: 是否有可能从f中得到Jim的名字? 我可以向工作人员询问与当前任务关联的密钥吗? 我找到了这篇旧帖子,以下内容让我得到了一些可能有用的东西,但它不是Jim ,它是由 dask 生成的: ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM