如何在python中将大型csv文件写入hdf5？

Question

我有一个太大的数据集，无法直接读入内存。 而且我不想升级机器。 从我的阅读来看，HDF5 可能是我的问题的合适解决方案。 但我不确定如何将数据帧迭代写入 HDF5 文件，因为我无法将 csv 文件作为数据帧对象加载。

所以我的问题是如何使用 python pandas 将大型 CSV 文件写入 HDF5 文件。

Answer 1

您可以使用chunksize参数分块读取 CSV 文件并将每个块附加到 HDF 文件：

hdf_key = 'hdf_key'
df_cols_to_index = [...] # list of columns (labels) that should be indexed
store = pd.HDFStore(hdf_filename)

for chunk in pd.read_csv(csv_filename, chunksize=500000):
    # don't index data columns in each iteration - we'll do it later ...
    store.append(hdf_key, chunk, data_columns=df_cols_to_index, index=False)
    # index data columns in HDFStore

store.create_table_index(hdf_key, columns=df_cols_to_index, optlevel=9, kind='full')
store.close()

如何在python中将大型csv文件写入hdf5？

问题描述

1 个解决方案

解决方案1
11 已采纳 2017-10-07 13:11:44

如何在python中将大型csv文件写入hdf5？

问题描述

1 个解决方案

解决方案1 11 已采纳 2017-10-07 13:11:44

解决方案1
11 已采纳 2017-10-07 13:11:44