cost 223 ms
用 dask dataframe 填充 SQL 数据库并转储到文件中 - populate SQL database with dask dataframe and dump into a file

在此 colab上重现错误和用例我有多个大表,我通过 Dask (dataframe) 读取和分析它们。 分析后,我想将它们推送到本地数据库(在本例中为 sqlite 引擎通过 sqlalchemy package。 这是一个虚拟数据: 但是, tmpfile文件是临时文件,并未存储在我的本地驱动器 ...

dask.compute Dask DataFrame 类型的所有值作为值存储在字典中 - dask.compute all values of Dask DataFrame type that are stored as values in a dictionary

我知道如果我将许多 Dask 数据帧存储在一个列表中,我可以并行计算所有这些数据帧 但是如果我将 Dask dataframe 结果作为值存储在字典中,我将如何做类似的事情? (如果containe_dict是字典 不会工作。) 我能做的最好的事情就是用一个容器遍历字典,但这并不理想,因为我们现在 ...

阅读镶木地板时 Dask 使用太多 memory - Dask using too much memory when reading parquet

我有一个相当大的镶木地板文件 (~1.35Gb),我正在尝试阅读。 我正在使用 Google Colab Pro,它给我 25 Gb 的 RAM。 我运行了以下代码: memory 用完了,有什么办法可以改善 memory 的消耗吗? 我尝试了不同的块大小,以及完全删除它,但都用完了 memor ...

为什么 Pandas “utf-8-sig” 编码有效,而 Dask 却无效? - Why does Pandas "utf-8-sig" encoding work but Dask doesn't?

文件.json 它被编码为“带有 BOM 的 UTF-8” 当我使用 pandas 时,它有效 成功的当我使用 dask 时,它失败了 ValueError:调用注册到pandas后端的read_json方法时出错。 原始消息:预期 object 或值我正在尝试读取 dask df 中的数据。 ...

Dask 滚动 function 失败并显示重新分区的消息 dataframe - Dask rolling function fails with message to repartition dataframe

赏金将在 6 天后到期。 此问题的答案有资格获得+150声望赏金。 ps0604想提请更多人注意这个问题。 当我运行 dask rolling function 来计算移动平均值时出现此错误: 错误: 分区大小小于重叠 window 大小。 尝试使用“df.repartition”来增加分区大小 ...

将文件名列添加到 Dask DataFrame - Adding file name column to Dask DataFrame

我有大约 400 个 CSV 文件的数据集,其中包含多个变量的时间序列(我的 CSV 有一个时间列,然后是其他变量的多个列)。 我的最终目标是在图表中选择一些变量和 plot 这 400 个时间序列。 为此,我尝试使用 Dask 读取 400 个文件,然后读取 plot 个文件。 然而,根据我的理 ...

在 Dask 数组的列上应用 function - Apply a function over the columns of a Dask array

赏金将在 6 天后到期。 此问题的答案有资格获得+100声望赏金。 chameau13想引起更多人对这个问题的关注。 如果社区可以启发我将 function 应用于 Dask 数组的每一列的最有效方法,那就太好了。 如下所述,我尝试了很多方法,但我仍然怀疑我对 Dask 的使用相当业余。 我有一 ...

如何在 dask.DataFrame 中获取一组的第一项? - How to get the first items of a group in dask.DataFrame?

我想获取包含 ID 的列的每组不同条目的第一项。 它适用于 pandas,但在 dask 中不起作用,因为我无法对多列进行排序并且未实现.head聚合。 还有另一种方法可以获得预期的结果吗? 这是 pandas 的最小示例,一切正常 但是很快,见下文,我得到了一个NotImplementedErr ...

如何使用 Pandas 和 Dask 优化两个巨大的 csv 文件的合并 - How to optimize the merging of two huge csv files using Pandas and Dask

我有两个从 api 收集的大型 csv 文件。 99.9% 的情况下,文件具有相同的行数、相同的列和数据,除了文件之间的两三列不同。 我正在基于 4 列对文件执行外部合并。但是合并时间需要很长时间,两个 2.7 GB 的文件大约需要 8 分钟,对于 4GB 文件大约需要大约 12 分钟。 如何加快 ...

python dask dataframe 用数组格式写入 json 文件 - python dask dataframe write json file with array format

我正在尝试读取一个大型 CSV 文件,然后将数据加载为 JSON 文件。 以下代码工作正常,但数据在 JSON 文件的每一行中写入为 JSON object。 上面的代码在每一行中将数据写入 JSON object 如何将数据写入 JSON 数组,如下所示? 默认情况下,文件创建文件类型为.part ...

在 Dask 中实现等宽间隔特征工程 - Implement Equal-Width Intervals feature engineering in Dask

赏金将在 3 天后到期。 此问题的答案有资格获得+150声望赏金。 ps0604想引起更多的关注这个问题。 在等宽离散化中,变量值被分配给相同宽度的区间。 区间数由用户定义,宽度由最小值/最大值和区间数确定。 例如,给定值 10、20、100、130,最小值为 10,最大值为 130。如果用户将 ...

Dask SQLAlchemy 查询在 Docker 工作人员中失败:异常:无法腌制 'weakref' object - Dask SQLAlchemy query fails in Docker workers: Exception: cannot pickle 'weakref' object

我有一个在 Docker 容器上运行工作人员的 Dask 分布式应用程序。 问题是,当我运行 SQLAlchemy read_sql_query 语句时,我在工作人员中遇到异常,说Exception: cannot pickle 'weakref' object 注意:这在本地工作人员中运行良好, ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM