Pandas：從鑲木地板文件中讀取前 n 行？

Question

我有一個鑲木地板文件，我想將文件中的前n行讀入熊貓數據框。 我試過的：

df = pd.read_parquet(path= 'filepath', nrows = 10)

它不起作用並給了我錯誤：

TypeError: read_table() got an unexpected keyword argument 'nrows'

我也嘗試過skiprows參數，但這也給了我同樣的錯誤。

或者，我可以讀取完整的鑲木地板文件並過濾前 n 行，但這將需要我想避免的更多計算。

有什么方法可以實現嗎？

Answer 1

探索周圍，與大熊貓的開發團隊取得聯系后，終點是大熊貓不支持的說法nrows或skiprows在閱讀拼花文件。

原因是熊貓使用pyarrow或fastparquet實木復合地板引擎來處理實木復合地板文件，而pyarrow不支持部分讀取文件或通過跳過行讀取文件（不確定fastparquet ）。 以下是熊貓github上的問題鏈接，以供討論。

https://github.com/pandas-dev/pandas/issues/24511

Answer 2

Parquet文件是面向列的存儲，為此而設計...因此，加載所有文件以僅訪問一行是正常的。

Answer 3

接受的答案已過時。 現在可以只將 parquet 文件的前幾行讀入 Pandas，盡管它有點混亂並且依賴於后端。

要使用 PyArrow 作為后端進行閱讀，請按照以下步驟操作：

from pyarrow.parquet import ParquetFile
import pyarrow as pa 

pf = ParquetFile('file_name.pq') 
first_ten_rows = next(pf.iter_batches(batch_size = 10)) 
df = pa.Table.from_batches([first_ten_rows]).to_pandas()

更改行batch_size = 10以匹配您想要讀入的行數。

Pandas：從鑲木地板文件中讀取前 n 行？

問題描述

3 個解決方案

解決方案1
4 2019-01-02 07:38:08

解決方案2
0 2019-01-02 09:25:01

解決方案3
0 2021-11-08 18:28:18

Pandas：從鑲木地板文件中讀取前 n 行？

問題描述

3 個解決方案

解決方案1 4 2019-01-02 07:38:08

解決方案2 0 2019-01-02 09:25:01

解決方案3 0 2021-11-08 18:28:18

解決方案1
4 2019-01-02 07:38:08

解決方案2
0 2019-01-02 09:25:01

解決方案3
0 2021-11-08 18:28:18