强制 dask to_parquet 写入单个文件

Question

使用dask.to_parquet(df, filename)时，会创建一个子文件夹filename并将多个文件写入该文件夹，而pandas.to_parquet(df, filename)只写入一个文件。 我可以使用 dask 的to_parquet （不使用compute()创建 pandas df）只写一个文件吗？

Answer 1

在并行系统中写入单个文件非常困难。 抱歉，Dask（也可能任何其他并行处理库）不提供这样的选项。

理论上，您可以通过大量工作来执行操作：您需要遍历 dataframe 的分区，写入目标文件（保持打开）并将 output 行组累积到文件的最终元数据页脚。 我会知道如何使用 fastparquet 来解决这个问题，但是这个库已经没有太多开发了。

Answer 2

有多个文件是有原因的（特别是当一个大文件不适合内存时）但是如果你真的只需要 1 你可以试试这个

import dask.dataframe as dd
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(1_000,5))

df = dd.from_pandas(df, npartitions=4)
df.repartition(npartitions=1).to_parquet("data")

强制 dask to_parquet 写入单个文件

问题描述

2 个解决方案

解决方案1
2 已采纳 2020-04-08 20:38:59

解决方案2
1 2020-04-08 20:38:43

强制 dask to_parquet 写入单个文件

问题描述

2 个解决方案

解决方案1 2 已采纳 2020-04-08 20:38:59

解决方案2 1 2020-04-08 20:38:43

解决方案1
2 已采纳 2020-04-08 20:38:59

解决方案2
1 2020-04-08 20:38:43