标签[dask-distributed] - 堆栈内存溢出

dask 分布式代码比相应的串行执行慢 - dask distributed code is slower than corresponding serial execution

我有一个独立的 python 脚本的简单示例，它在我的桌面上运行，它有 4 个 CPU 节点，目前需要 0.735 秒。目标是在我的 Linux 上使用单独的进程来克服 GIL 等的限制。这是相应的串行执行，仅进行了微不足道的修改，耗时 0.0024 秒。我哪里错了？至少对于这种微不足道的数 ...

等待 dask 期货时出现 TypeError - TypeError when awaiting dask futures

我收到以下错误： TypeError: object list can't be used in 'await' expression 当我尝试以dask_client.gather(futures)或await futures时。我正在使用asynchronous=True的 Dask Cli ...

如何使特定的 dask 警告静音？ - How to silence a specific dask warning?

当我运行我的 dask worker 时，我通过日志从他们那里收集有用的信息，但偶尔日志会被关于 unmanaged memory 的错误完全淹没。具体来说，这个错误会填满日志并使任何其他问题无法修复：我已经调整了 yaml 文件中的日志级别以抑制任何低于错误级别的内容，但我确实想保留一些正常信 ...

Dask 滚动 function 失败并显示重新分区的消息 dataframe - Dask rolling function fails with message to repartition dataframe

赏金将在 6 天后到期。此问题的答案有资格获得+150声望赏金。 ps0604想提请更多人注意这个问题。当我运行 dask rolling function 来计算移动平均值时出现此错误：错误：分区大小小于重叠 window 大小。尝试使用“df.repartition”来增加分区大小 ...

Dask 在内存中的块数通常是活动线程数的两倍——如何理解这一点？ - Dask will often have as many chunks in memory as twice the number of active threads - How to understand this?

我在dask 的网站上阅读了带标题的句子，想知道它是什么意思。为了便于参考，我将相关部分摘录如下： Dask Array 用户的一个常见性能问题是他们选择的块大小要么太小（导致大量开销），要么与他们的数据对齐不佳（导致读取效率低下）。虽然最佳大小和形状是高度特定于问题的，但很少看到大小低于 ...

在 Dask 数组的列上应用 function - Apply a function over the columns of a Dask array

赏金将在 6 天后到期。此问题的答案有资格获得+100声望赏金。 chameau13想引起更多人对这个问题的关注。如果社区可以启发我将 function 应用于 Dask 数组的每一列的最有效方法，那就太好了。如下所述，我尝试了很多方法，但我仍然怀疑我对 Dask 的使用相当业余。我有一 ...

dask.distributed：处理奇异对象的序列化？ - dask.distributed: handle serialization of exotic objects?

语境我正在尝试使用 dask distributed 和以前项目中的一些遗留代码编写数据管道。 get_data只需将url:str和session:ClientSession获取为 arguments 并返回 pandas DataFrame。from dask.distributed imp ...

获取个别dask dataframe分区状态 - Get individual dask dataframe partition status

我喜欢使用dd.persist()运行异步 dask dataframe 计算，然后能够跟踪单个分区状态。目标是以非阻塞方式访问部分结果。这里是所需的伪代码：使用 dask futures 效果很好，但是与单个dd.persist()相比，提交许多单独的分区非常慢，并且每个分区有一个 futu ...

如何使 python 记录器设置在 dask 中有效 - how to make python logger setup effective in dask

我的原始脚本使用 pool.map 并行运行。我将代码中的记录器设置为 output 到一个文件，并且在不同进程中运行的代码 output 记录到同一个文件中。现在我尝试使用 dask 进行多处理，发现记录器设置在其他进程中无效。我的代码可以简化如下：但我在控制台或文件中什么也看不到。我试 ...

使用 dask 通过客户端提交作业后立即显示日志 - Logs are shown immediately after submitting a job via client on using dask

通过客户端提交的function的日志立即显示出来。相反，日志应该显示在client.gather(futures)上。使用延迟但不能使用期货可以实现预期的行为。这是重现问题的代码：上面添加的代码将已经显示提交日志，如下所示。 Output： client.gather client.g ...

Dask - 如何在多个数据帧上调用“.compute()” - Dask - How to call ".compute()" on multiple dataframes

我有两个在我的计算中相互依赖的数据框，我想通过一个compute()调用来获得两者的结果。代码可以总结如下：非常感谢您的帮助 ...

python/linux中如何控制dask每个worker的线程数？ - How do control dask's number of threads per worker in python/linux?

我尝试在 linux 中使用多进程但每个进程设置单线程的 dask localcluster，但到目前为止失败：发生的事情是 dask 确实启动了两个进程（通过 spawn_main），但每个进程都有 7 个线程。除此之外，主进程本身（我使用 python -m 启动）有 20 个线程。我也 ...

在 Dask 中实现等宽间隔特征工程 - Implement Equal-Width Intervals feature engineering in Dask

赏金将在 3 天后到期。此问题的答案有资格获得+150声望赏金。 ps0604想引起更多的关注这个问题。在等宽离散化中，变量值被分配给相同宽度的区间。区间数由用户定义，宽度由最小值/最大值和区间数确定。例如，给定值 10、20、100、130，最小值为 10，最大值为 130。如果用户将 ...

Dask SQLAlchemy 查询在 Docker 工作人员中失败：异常：无法腌制 'weakref' object - Dask SQLAlchemy query fails in Docker workers: Exception: cannot pickle 'weakref' object

我有一个在 Docker 容器上运行工作人员的 Dask 分布式应用程序。问题是，当我运行 SQLAlchemy read_sql_query 语句时，我在工作人员中遇到异常，说Exception: cannot pickle 'weakref' object 注意：这在本地工作人员中运行良好， ...

使用 SQLAlchemy 加载 Dask dataframe 失败 - Loading Dask dataframe with SQLAlchemy fails

我正在尝试使用 dd.read_sql_query 加载带有 SQLAlchemy 的 Dask dd.read_sql_query 。我定义了一个表，其中一列balance_date类型为 DateTime（在数据库中为 DATE 类型）：问题是dd.read_sql_query失败，因为它说 ...

如何序列化metpy（品脱）单位以用于dask分布式？ - How to serialize metpy (pint) units for use with dask distributed?

如何正确序列化metpy单元（基于品脱）以使用dask分布式？据我了解，它看起来像 dask 分布式自动腌制数据以便于传输，但未能腌制计算所需的metpy单元。产生的错误： TypeError: cannot pickle 'weakref' object 。 MWE 下面。编辑：添加了完 ...

指示 Dask 在每个分区中包含哪些记录 - Instruct Dask what records to include in each partition

我有银行账户记录，其中每一行是账户的每月余额：假设有 1000 万个账户和 10 年的数据。我需要做的是将 function 应用到每个帐户。例如，对于每个帐户，我需要取 10 年的平均值并计算该平均值与该日期余额之间的差异。对于帐户 1111，它将如下所示（平均值为 1200）：这是我的 ...

make dask foldby 创建多个分区 - Make dask foldby create multiple partitions

我试图了解 dask.foldby 的工作原理。考虑以下代码。我创建了一个包含 100 件物品的 dask 包。然后我按某个分组 function 折叠项目，计算 5 个总和。当我查看 res 任务图时，我看到：折叠的结果似乎存储在单个工作人员/单个分区中（我不太确定 1 个分区 = 1 ...

从原始 function 中获取 dask 延迟对象/任务的名称？ - get the name of the dask delayed object/task from within the original function?

假设我有一些 function 然后我延迟并计算：是否有可能从f中得到Jim的名字？我可以向工作人员询问与当前任务关联的密钥吗？我找到了这篇旧帖子，以下内容让我得到了一些可能有用的东西，但它不是Jim ，它是由 dask 生成的： ...

如何在 dask-woker 上共享多个文件和文件夹，以免出现模块错误 - How on dask-woker how to share mutiple file and folder so that not getting module error

ModuleNotFoundError: No module named 'src.data_processing' 异常被忽略：<function Pool。删除0x7f593e7a95e0> ...