标签[dask-dataframe] - 堆栈内存溢出

用 dask dataframe 填充 SQL 数据库并转储到文件中 - populate SQL database with dask dataframe and dump into a file

在此 colab上重现错误和用例我有多个大表，我通过 Dask (dataframe) 读取和分析它们。分析后，我想将它们推送到本地数据库（在本例中为 sqlite 引擎通过 sqlalchemy package。这是一个虚拟数据：但是， tmpfile文件是临时文件，并未存储在我的本地驱动器 ...

dask.compute Dask DataFrame 类型的所有值作为值存储在字典中 - dask.compute all values of Dask DataFrame type that are stored as values in a dictionary

我知道如果我将许多 Dask 数据帧存储在一个列表中，我可以并行计算所有这些数据帧但是如果我将 Dask dataframe 结果作为值存储在字典中，我将如何做类似的事情？（如果containe_dict是字典不会工作。）我能做的最好的事情就是用一个容器遍历字典，但这并不理想，因为我们现在 ...

阅读镶木地板时 Dask 使用太多 memory - Dask using too much memory when reading parquet

我有一个相当大的镶木地板文件 (~1.35Gb)，我正在尝试阅读。我正在使用 Google Colab Pro，它给我 25 Gb 的 RAM。我运行了以下代码： memory 用完了，有什么办法可以改善 memory 的消耗吗？我尝试了不同的块大小，以及完全删除它，但都用完了 memor ...

为什么 Pandas “utf-8-sig” 编码有效，而 Dask 却无效？ - Why does Pandas "utf-8-sig" encoding work but Dask doesn't?

文件.json 它被编码为“带有 BOM 的 UTF-8” 当我使用 pandas 时，它有效成功的当我使用 dask 时，它失败了 ValueError：调用注册到pandas后端的read_json方法时出错。原始消息：预期 object 或值我正在尝试读取 dask df 中的数据。 ...

Dask 滚动 function 失败并显示重新分区的消息 dataframe - Dask rolling function fails with message to repartition dataframe

赏金将在 6 天后到期。此问题的答案有资格获得+150声望赏金。 ps0604想提请更多人注意这个问题。当我运行 dask rolling function 来计算移动平均值时出现此错误：错误：分区大小小于重叠 window 大小。尝试使用“df.repartition”来增加分区大小 ...

将文件名列添加到 Dask DataFrame - Adding file name column to Dask DataFrame

我有大约 400 个 CSV 文件的数据集，其中包含多个变量的时间序列（我的 CSV 有一个时间列，然后是其他变量的多个列）。我的最终目标是在图表中选择一些变量和 plot 这 400 个时间序列。为此，我尝试使用 Dask 读取 400 个文件，然后读取 plot 个文件。然而，根据我的理 ...

在 Dask 数组的列上应用 function - Apply a function over the columns of a Dask array

赏金将在 6 天后到期。此问题的答案有资格获得+100声望赏金。 chameau13想引起更多人对这个问题的关注。如果社区可以启发我将 function 应用于 Dask 数组的每一列的最有效方法，那就太好了。如下所述，我尝试了很多方法，但我仍然怀疑我对 Dask 的使用相当业余。我有一 ...

如何在 dask.DataFrame 中获取一组的第一项？ - How to get the first items of a group in dask.DataFrame?

我想获取包含 ID 的列的每组不同条目的第一项。它适用于 pandas，但在 dask 中不起作用，因为我无法对多列进行排序并且未实现.head聚合。还有另一种方法可以获得预期的结果吗？这是 pandas 的最小示例，一切正常但是很快，见下文，我得到了一个NotImplementedErr ...

dask-ml 预处理引发 AttributeError - dask-ml preprocessing raise AttributeError

我使用 Dask dataframe 和 dask-ml 来操作我的数据。当我使用 dask-ml 最小-最大定标器时，出现此错误。有没有办法防止这个错误并让它起作用？ AttributeError: 'Scalar' object 没有属性 'copy' ...

Groupby 保存数据库的所有信息 - Groupby keeping all the information of a database

假设我有一个 dataframe A：我想做的（在dask中，但任何建议，在Pandas中也是有帮助的）是使groupby a0保留a1和a2中包含的所有唯一信息。换句话说，我想获得以下信息：谢谢 ...

获取个别dask dataframe分区状态 - Get individual dask dataframe partition status

我喜欢使用dd.persist()运行异步 dask dataframe 计算，然后能够跟踪单个分区状态。目标是以非阻塞方式访问部分结果。这里是所需的伪代码：使用 dask futures 效果很好，但是与单个dd.persist()相比，提交许多单独的分区非常慢，并且每个分区有一个 futu ...

通过 map_partitions 在 dask.dataframe 上应用 h3.string_to_h3 - apply h3.string_to_h3 on dask.dataframe thru map_partitions

我想问一下如何使用dd.map_partitions for h3.string_to_h3 function。我的 dataframe 看起来像这样 h3 纬度隆 X 是的海拔 2 8ca80c8e91015ff -23.068134 -52.042272 393235.906794 ...

如何使用 Pandas 和 Dask 优化两个巨大的 csv 文件的合并 - How to optimize the merging of two huge csv files using Pandas and Dask

我有两个从 api 收集的大型 csv 文件。 99.9% 的情况下，文件具有相同的行数、相同的列和数据，除了文件之间的两三列不同。我正在基于 4 列对文件执行外部合并。但是合并时间需要很长时间，两个 2.7 GB 的文件大约需要 8 分钟，对于 4GB 文件大约需要大约 12 分钟。如何加快 ...

python dask dataframe 用数组格式写入 json 文件 - python dask dataframe write json file with array format

我正在尝试读取一个大型 CSV 文件，然后将数据加载为 JSON 文件。以下代码工作正常，但数据在 JSON 文件的每一行中写入为 JSON object。上面的代码在每一行中将数据写入 JSON object 如何将数据写入 JSON 数组，如下所示？默认情况下，文件创建文件类型为.part ...

在 Dask 中实现等宽间隔特征工程 - Implement Equal-Width Intervals feature engineering in Dask

赏金将在 3 天后到期。此问题的答案有资格获得+150声望赏金。 ps0604想引起更多的关注这个问题。在等宽离散化中，变量值被分配给相同宽度的区间。区间数由用户定义，宽度由最小值/最大值和区间数确定。例如，给定值 10、20、100、130，最小值为 10，最大值为 130。如果用户将 ...

Dask 延迟 object 计算结果不正确 dataframe - Dask delayed object computed result not get proper dataframe

我尝试使用 dask 延迟来提高循环迭代速度，迭代由 map function 完成。问题是在 dd.compute() 之后，结果列表超出了括号，因此无法得到正确的 dataframe。有人有解决方案吗？ Output： ...

在 Dask 中创建 Dataframe - Create a Dataframe in Dask

我刚刚开始使用 Dask 作为 pandas 的可能替代品（？）。打我的第一个想法是，我似乎找不到从几个列表/数组中创建 dataframe 的方法。在常规 pandas 我只是这样做： pd.DataFrame({'a':a,'b':b,...})但我找不到在 Dask 中执行此操作的等效方 ...

应用 function 时 dask_cudf dataframe 出错 - Error on dask_cudf dataframe while aplying function

我的数据有 1000 个特征和 1000 个样本有一些从 0 到 100 的随机值。我在 dask_cudf 数据帧上应用返回类型为 bool 的 function，但我在终端中遇到错误 <source missing, REPL/ exec 正在使用中？> 有关如何修复此错误的任何想法 ...

如何使用 dataframe 列值作为键将 dask dataframe 转换为字典 - How to convert a dask dataframe to a dictionary using dataframe column values as keys

导入 pandas 作为 pd 数据 = {'col_1': ['a', 'a', 'b', 'b'], 'col_2': [1, 2, 3, 4]} df = pd.DataFrame(数据) {k: g[df.columns[1]].tolist() for k,g in df.groupb ...

Dask SQLAlchemy 查询在 Docker 工作人员中失败：异常：无法腌制 'weakref' object - Dask SQLAlchemy query fails in Docker workers: Exception: cannot pickle 'weakref' object

我有一个在 Docker 容器上运行工作人员的 Dask 分布式应用程序。问题是，当我运行 SQLAlchemy read_sql_query 语句时，我在工作人员中遇到异常，说Exception: cannot pickle 'weakref' object 注意：这在本地工作人员中运行良好， ...