簡體   English   中英

哪種方式最好讀取鑲木地板文件以處理為 dask dataframe

[英]which way is best to read the parquet file to process as dask dataframe

我有一個包含小鑲木地板文件(600)的目錄,我想在這些鑲木地板上進行 ETL 並將這些鑲木地板合並到每個文件 128mb。 什么是處理數據的最佳方式。

我應該讀取 parquet 目錄中的每個文件並將其作為單個數據框連接並執行 groupBY 嗎? 或者向 dd.read_parquet 提供 parquet 目錄名稱並進行處理?

我覺得,當我逐個文件讀取文件時,它會創建一個非常大的 dask 圖,無法作為圖像擬合。 我想它也適用於這么多線程? 這會導致 memory 錯誤。

哪種方式最好讀取鑲木地板文件以處理為 dask dataframe? 逐個文件還是提供整個目錄??

不幸的是,沒有一種最佳方法可以在所有情況下讀取 Parquet 文件。 為了正確回答問題,您需要更多地了解您的情況。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM