簡體 English 中英

哪種方式最好讀取鑲木地板文件以處理為 dask dataframe

[英]which way is best to read the parquet file to process as dask dataframe

原文 2020-05-19 06:49:55 1 1 python/ dask/ parquet/ pyarrow/ dask-dataframe

我有一個包含小鑲木地板文件（600）的目錄，我想在這些鑲木地板上進行 ETL 並將這些鑲木地板合並到每個文件 128mb。 什么是處理數據的最佳方式。

我應該讀取 parquet 目錄中的每個文件並將其作為單個數據框連接並執行 groupBY 嗎？ 或者向 dd.read_parquet 提供 parquet 目錄名稱並進行處理？

我覺得，當我逐個文件讀取文件時，它會創建一個非常大的 dask 圖，無法作為圖像擬合。 我想它也適用於這么多線程？ 這會導致 memory 錯誤。

哪種方式最好讀取鑲木地板文件以處理為 dask dataframe？ 逐個文件還是提供整個目錄？？

1 個解決方案

不幸的是，沒有一種最佳方法可以在所有情況下讀取 Parquet 文件。 為了正確回答問題，您需要更多地了解您的情況。

dask dataframe讀取鑲木地板架構差異

[英]dask dataframe read parquet schema difference

使用 dask.dataframe.read_parquet 為 parquet 分區字段指定 dtype

[英]Specifying dtype for parquet partition fields with dask.dataframe.read_parquet

使用 pyspark 讀取和處理存儲在 GCP 中的鑲木地板文件的最佳方法

[英]Best way to read and process parquet files stored in GCP using pyspark

使用 Dask Dataframe 附加到 Parquet 文件時出錯

[英]Error Appending to Parquet File Using Dask Dataframe

哪個文件導致 `dask.dataframe.read_csv` 失敗？

[英]Which file is causing `dask.dataframe.read_csv` to fail?

從鑲木地板讀取時，dask數據框列重命名較慢

[英]dask dataframe column renames are slow(er) when read from parquet

將 Paramiko 連接 SFTPFile 作為輸入傳遞給 dask.dataframe.read_parquet

[英]Passing a Paramiko connection SFTPFile as input to a dask.dataframe.read_parquet

如何使用時間戳過濾dask.dataframe.read_parquet？

[英]How do I filter dask.dataframe.read_parquet with timestamp?

讀取進程並與 dask 並行連接 Pandas 數據幀

[英]read process and concatenate pandas dataframe in parallel with dask

重新分區鑲木地板文件 dask

[英]Repartioning parquet file dask

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 dask dataframe讀取鑲木地板架構差異使用 dask.dataframe.read_parquet 為 parquet 分區字段指定 dtype 使用 pyspark 讀取和處理存儲在 GCP 中的鑲木地板文件的最佳方法使用 Dask Dataframe 附加到 Parquet 文件時出錯哪個文件導致 `dask.dataframe.read_csv` 失敗？從鑲木地板讀取時，dask數據框列重命名較慢將 Paramiko 連接 SFTPFile 作為輸入傳遞給 dask.dataframe.read_parquet 如何使用時間戳過濾dask.dataframe.read_parquet？讀取進程並與 dask 並行連接 Pandas 數據幀重新分區鑲木地板文件 dask

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM