從 Python Pandas / Dask 中的 Parquet 文件中讀取行組？

Question

我有一個 Pandas dataframe 看起來類似於這樣：

datetime                 data1  data2
2021-01-23 00:00:31.140     a1     a2
2021-01-23 00:00:31.140     b1     b2       
2021-01-23 00:00:31.140     c1     c2
2021-01-23 00:01:29.021     d1     d2
2021-01-23 00:02:10.540     e1     e2
2021-01-23 00:02:10.540     f1     f2

真正的 dataframe 非常大，對於每個唯一的時間戳，有幾千行。

我想將此 dataframe 保存到 Parquet 文件中，以便我可以快速讀取具有特定日期時間索引的所有行，而無需加載整個文件或循環遍歷它。 如何在 Python 中正確保存它以及如何快速僅讀取特定日期時間的行？

閱讀后，我想要一個新的 dataframe 包含該特定日期時間的所有行。 例如，我想從 Parquet 文件中僅讀取日期時間“2021-01-23 00:00:31.140”的行並接收此 dataframe：

datetime                 data1  data2
2021-01-23 00:00:31.140     a1     a2
2021-01-23 00:00:31.140     b1     b2        
2021-01-23 00:00:31.140     c1     c2

我想知道它可能首先需要將每個時間戳的數據轉換為一列，就像這樣，所以可以通過讀取列而不是行來訪問它？

2021-01-23 00:00:31.140  2021-01-23 00:01:29.021  2021-01-23 00:02:10.540
           ['a1', 'a2']             ['d1', 'd2']             ['e1', 'e2']
           ['b1', 'b2']                      NaN             ['f1', 'f2']
           ['c1', 'c2']                      NaN                      NaN

感謝您的幫助，非常感謝您！

Answer 1

一種解決方案是按時間索引您的數據並使用dask ，這是一個示例：

import dask
import dask.dataframe as dd

df = dask.datasets.timeseries(
    start='2000-01-01',
    end='2000-01-2',
    freq='1s',
    partition_freq='1h')

df

print(len(df))
# 86400 rows across 24 files/partitions

%%time
df.loc['2000-01-01 03:40'].compute()
# result returned in about 8 ms

像您建議的那樣使用轉置的 dataframe 並不是最佳選擇，因為您最終會得到每個文件/分區獨有的數千列（如果不是更多的話）。

因此，在您的數據上，工作流程大致如下所示：

import io
data = io.StringIO("""
datetime|data1|data2
2021-01-23 00:00:31.140|a1|a2
2021-01-23 00:00:31.140|b1|b2       
2021-01-23 00:00:31.140|c1|c2
2021-01-23 00:01:29.021|d1|d2
2021-01-23 00:02:10.540|e1|e2
2021-01-23 00:02:10.540|f1|f2""")

import pandas as pd
df = pd.read_csv(data, sep='|', parse_dates=['datetime'])

# make sure the date time column was parsed correctly before
# setting it as an index
df = df.set_index('datetime')


import dask.dataframe as dd
ddf = dd.from_pandas(df, npartitions=3)

ddf.to_parquet('test_parquet')
# note this will create a folder with one file per partition

ddf2 = dd.read_parquet('test_parquet')


ddf2.loc['2021-01-23 00:00:31'].compute()

# if you want to use very precise time, first convert it to datetime format
ts_exact = pd.to_datetime('2021-01-23 00:00:31.140')
ddf2.loc[ts_exact].compute()

從 Python Pandas / Dask 中的 Parquet 文件中讀取行組？

問題描述

1 個解決方案

解決方案1
2 已采納 2021-03-07 04:15:39

從 Python Pandas / Dask 中的 Parquet 文件中讀取行組？

問題描述

1 個解決方案

解決方案1 2 已采納 2021-03-07 04:15:39

解決方案1
2 已采納 2021-03-07 04:15:39