在此 colab上重现错误和用例我有多个大表,我通过 Dask (dataframe) 读取和分析它们。 分析后,我想将它们推送到本地数据库(在本例中为 sqlite 引擎通过 sqlalchemy package。 这是一个虚拟数据: 但是, tmpfile文件是临时文件,并未存储在我的本地驱动器 ...
在此 colab上重现错误和用例我有多个大表,我通过 Dask (dataframe) 读取和分析它们。 分析后,我想将它们推送到本地数据库(在本例中为 sqlite 引擎通过 sqlalchemy package。 这是一个虚拟数据: 但是, tmpfile文件是临时文件,并未存储在我的本地驱动器 ...
我知道如果我将许多 Dask 数据帧存储在一个列表中,我可以并行计算所有这些数据帧 但是如果我将 Dask dataframe 结果作为值存储在字典中,我将如何做类似的事情? (如果containe_dict是字典 不会工作。) 我能做的最好的事情就是用一个容器遍历字典,但这并不理想,因为我们现在 ...
我有一个相当大的镶木地板文件 (~1.35Gb),我正在尝试阅读。 我正在使用 Google Colab Pro,它给我 25 Gb 的 RAM。 我运行了以下代码: memory 用完了,有什么办法可以改善 memory 的消耗吗? 我尝试了不同的块大小,以及完全删除它,但都用完了 memor ...
文件.json 它被编码为“带有 BOM 的 UTF-8” 当我使用 pandas 时,它有效 成功的当我使用 dask 时,它失败了 ValueError:调用注册到pandas后端的read_json方法时出错。 原始消息:预期 object 或值我正在尝试读取 dask df 中的数据。 ...
赏金将在 6 天后到期。 此问题的答案有资格获得+150声望赏金。 ps0604想提请更多人注意这个问题。 当我运行 dask rolling function 来计算移动平均值时出现此错误: 错误: 分区大小小于重叠 window 大小。 尝试使用“df.repartition”来增加分区大小 ...
我有大约 400 个 CSV 文件的数据集,其中包含多个变量的时间序列(我的 CSV 有一个时间列,然后是其他变量的多个列)。 我的最终目标是在图表中选择一些变量和 plot 这 400 个时间序列。 为此,我尝试使用 Dask 读取 400 个文件,然后读取 plot 个文件。 然而,根据我的理 ...
赏金将在 6 天后到期。 此问题的答案有资格获得+100声望赏金。 chameau13想引起更多人对这个问题的关注。 如果社区可以启发我将 function 应用于 Dask 数组的每一列的最有效方法,那就太好了。 如下所述,我尝试了很多方法,但我仍然怀疑我对 Dask 的使用相当业余。 我有一 ...
我想获取包含 ID 的列的每组不同条目的第一项。 它适用于 pandas,但在 dask 中不起作用,因为我无法对多列进行排序并且未实现.head聚合。 还有另一种方法可以获得预期的结果吗? 这是 pandas 的最小示例,一切正常 但是很快,见下文,我得到了一个NotImplementedErr ...
我使用 Dask dataframe 和 dask-ml 来操作我的数据。 当我使用 dask-ml 最小-最大定标器时,出现此错误。 有没有办法防止这个错误并让它起作用? AttributeError: 'Scalar' object 没有属性 'copy' ...
假设我有一个 dataframe A: 我想做的(在dask中,但任何建议,在Pandas中也是有帮助的)是使groupby a0保留a1和a2中包含的所有唯一信息。 换句话说,我想获得以下信息: 谢谢 ...
我喜欢使用dd.persist()运行异步 dask dataframe 计算,然后能够跟踪单个分区状态。 目标是以非阻塞方式访问部分结果。 这里是所需的伪代码: 使用 dask futures 效果很好,但是与单个dd.persist()相比,提交许多单独的分区非常慢,并且每个分区有一个 futu ...
我想问一下如何使用dd.map_partitions for h3.string_to_h3 function。 我的 dataframe 看起来像这样 h3 纬度隆 X 是的海拔 2 8ca80c8e91015ff -23.068134 -52.042272 393235.906794 ...
我有两个从 api 收集的大型 csv 文件。 99.9% 的情况下,文件具有相同的行数、相同的列和数据,除了文件之间的两三列不同。 我正在基于 4 列对文件执行外部合并。但是合并时间需要很长时间,两个 2.7 GB 的文件大约需要 8 分钟,对于 4GB 文件大约需要大约 12 分钟。 如何加快 ...
我正在尝试读取一个大型 CSV 文件,然后将数据加载为 JSON 文件。 以下代码工作正常,但数据在 JSON 文件的每一行中写入为 JSON object。 上面的代码在每一行中将数据写入 JSON object 如何将数据写入 JSON 数组,如下所示? 默认情况下,文件创建文件类型为.part ...
赏金将在 3 天后到期。 此问题的答案有资格获得+150声望赏金。 ps0604想引起更多的关注这个问题。 在等宽离散化中,变量值被分配给相同宽度的区间。 区间数由用户定义,宽度由最小值/最大值和区间数确定。 例如,给定值 10、20、100、130,最小值为 10,最大值为 130。如果用户将 ...
我尝试使用 dask 延迟来提高循环迭代速度,迭代由 map function 完成。 问题是在 dd.compute() 之后,结果列表超出了括号,因此无法得到正确的 dataframe。 有人有解决方案吗? Output: ...
我刚刚开始使用 Dask 作为 pandas 的可能替代品(?)。 打我的第一个想法是,我似乎找不到从几个列表/数组中创建 dataframe 的方法。 在常规 pandas 我只是这样做: pd.DataFrame({'a':a,'b':b,...})但我找不到在 Dask 中执行此操作的等效方 ...
我的数据有 1000 个特征和 1000 个样本有一些从 0 到 100 的随机值。我在 dask_cudf 数据帧上应用返回类型为 bool 的 function,但我在终端中遇到错误 <source missing, REPL/ exec 正在使用中?> 有关如何修复此错误的任何想法 ...
导入 pandas 作为 pd 数据 = {'col_1': ['a', 'a', 'b', 'b'], 'col_2': [1, 2, 3, 4]} df = pd.DataFrame(数据) {k: g[df.columns[1]].tolist() for k,g in df.groupb ...
我有一个在 Docker 容器上运行工作人员的 Dask 分布式应用程序。 问题是,当我运行 SQLAlchemy read_sql_query 语句时,我在工作人员中遇到异常,说Exception: cannot pickle 'weakref' object 注意:这在本地工作人员中运行良好, ...