簡體   English   中英

從HDF5文件列表中創建一個dask數據幀

[英]Creating a dask dataframe from a list of HDF5 files

從HDF5文件列表中創建dask.dataframe的正確方法是什么? 我基本上想用數據幀做這個

dsets = [h5py.File(fn)['/data'] for fn in sorted(glob('myfiles.*.hdf5')]
arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets]
x = da.stack(arrays, axis=0)

簡單地說,如果您的單個文件可以使用pd.read_hdf讀取,那么您可以使用dd.read_hdfdd.concat執行此dd.concat

import dask.dataframe as dd
dfs = [dd.read_hdf(fn, '/data') for fn in sorted(glob('myfiles.*.hdf5')]
df = dd.concat(dfs)

但是直接在dd.read_hdf支持這個習慣是有用的(也很容易)。 我已經為此創建了一個問題 ,並將在接下來的幾天內嘗試解決這個問題

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM