簡體 English 中英

重新分區鑲木地板文件 dask

[英]Repartioning parquet file dask

原文 2021-11-21 10:11:14 3 1 python/ dask/ parquet

我想了解一些關於在 Dask 上分割鑲木地板的事情。

當我在 a.csv 文件中執行此操作時，塊大小按預期工作，基於 50 mb 塊執行 30 個分區。

當我嘗試通過 read_parquet 執行相同的邏輯時，不會創建任何分區，當我使用 repartition(partition_size='50mb') 強制執行此操作時，它會創建 109 個分區。

有人可以向我解釋為什么鑲木地板在進行塊大小時似乎不像.csv 那樣工作嗎？

1 個解決方案

在 CSV 中，基本的、不可分割的數據塊是一行，通常是一個 \n 字符和下一個字符之間的字節。 這個字節塊大小通常很小。 當您使用 dask 加載數據時，它會從給定的偏移量讀取到下一個 \n 以便能夠讀取准確的行數。 您會發現，如果您將塊大小設置得太小，則某些分區將不包含數據。

Parquet 的結構不是這樣的。 它的基本不可拆分塊是“行組”，每個數據文件通常只有一個行組。 這樣做是為了提高效率：在一個塊中編碼和壓縮整個行組的數據將提供最大的讀取吞吐量。 此外，由於編碼和壓縮，dask 很難猜測一個數據集的內存大小 pandas dataframe，但它可以大很多倍。

一個行組的大小很容易達到 >>100MB。 事實上，這通常是推薦的，因為較小的部分在開銷和延遲方面的處理時間會更高。

總結

dask 不會將 parquet 數據集拆分到數據文件中的分區之外
memory 中的分區大小可能比磁盤上的大很多倍，因此加載后重新分區可能會導致許多分區
這些是使鑲木地板盡可能快速和節省空間所需的權衡

強制 dask to_parquet 寫入單個文件

[英]Force dask to_parquet to write single file

使用 Dask Dataframe 附加到 Parquet 文件時出錯

[英]Error Appending to Parquet File Using Dask Dataframe

Dask to_parquet 拋出異常“沒有這樣的文件或目錄”

[英]Dask to_parquet throws exception "No such file or directory"

使用 dask 將鑲木地板文件拆分為較小的塊

[英]Split a parquet file in smaller chunks using dask

如何將包含數組列的Dask數據框寫入拼花文件

[英]How to write a Dask dataframe containing a column of arrays to a parquet file

使用 dask 將 CSV 文件轉換為鑲木地板（jupyter 內核崩潰）

[英]convert CSV file to parquet using dask (jupyter kernel crashes)

如何從鑲木地板文件中刪除 __null_dask_index？

[英]How to remove __null_dask_index from parquet file?

從 Python Pandas / Dask 中的 Parquet 文件中讀取行組？

[英]Read group of rows from Parquet file in Python Pandas / Dask?

哪種方式最好讀取鑲木地板文件以處理為 dask dataframe

[英]which way is best to read the parquet file to process as dask dataframe

使用 dask.DataFrame.to_parquet() 寫入大文件

[英]Using dask.DataFrame.to_parquet() to write large file

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 強制 dask to_parquet 寫入單個文件使用 Dask Dataframe 附加到 Parquet 文件時出錯 Dask to_parquet 拋出異常“沒有這樣的文件或目錄” 使用 dask 將鑲木地板文件拆分為較小的塊如何將包含數組列的Dask數據框寫入拼花文件使用 dask 將 CSV 文件轉換為鑲木地板（jupyter 內核崩潰）如何從鑲木地板文件中刪除 __null_dask_index？從 Python Pandas / Dask 中的 Parquet 文件中讀取行組？哪種方式最好讀取鑲木地板文件以處理為 dask dataframe 使用 dask.DataFrame.to_parquet() 寫入大文件

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM