強制 dask to_parquet 寫入單個文件

Question

使用dask.to_parquet(df, filename)時，會創建一個子文件夾filename並將多個文件寫入該文件夾，而pandas.to_parquet(df, filename)只寫入一個文件。 我可以使用 dask 的to_parquet （不使用compute()創建 pandas df）只寫一個文件嗎？

Answer 1

在並行系統中寫入單個文件非常困難。 抱歉，Dask（也可能任何其他並行處理庫）不提供這樣的選項。

理論上，您可以通過大量工作來執行操作：您需要遍歷 dataframe 的分區，寫入目標文件（保持打開）並將 output 行組累積到文件的最終元數據頁腳。 我會知道如何使用 fastparquet 來解決這個問題，但是這個庫已經沒有太多開發了。

Answer 2

有多個文件是有原因的（特別是當一個大文件不適合內存時）但是如果你真的只需要 1 你可以試試這個

import dask.dataframe as dd
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(1_000,5))

df = dd.from_pandas(df, npartitions=4)
df.repartition(npartitions=1).to_parquet("data")

強制 dask to_parquet 寫入單個文件

問題描述

2 個解決方案

解決方案1
2 已采納 2020-04-08 20:38:59

解決方案2
1 2020-04-08 20:38:43

強制 dask to_parquet 寫入單個文件

問題描述

2 個解決方案

解決方案1 2 已采納 2020-04-08 20:38:59

解決方案2 1 2020-04-08 20:38:43

解決方案1
2 已采納 2020-04-08 20:38:59

解決方案2
1 2020-04-08 20:38:43