使用h5py对hdf5进行增量写入

Question

我有一个关于如何使用python / h5py最好地写入hdf5文件的问题。

我有以下数据：

-----------------------------------------
| timepoint | voltage1 | voltage2 | ...
-----------------------------------------
| 178       | 10       | 12       | ...
-----------------------------------------
| 179       | 12       | 11       | ...
-----------------------------------------
| 185       | 9        | 12       | ...
-----------------------------------------
| 187       | 15       | 12       | ...
                    ...

大约10 ^ 4列，大约10 ^ 7行。 （大约10 ^ 11（1000亿）个元素，或者~100GB，1个字节的整数）。

使用这些数据，典型的使用几乎是一次写入，多次读取，典型的读取案例是获取第1列和另一列（比如254），将两列加载到内存中，并做一些奇特的统计。

我认为一个好的hdf5结构将使上表中的每列都是hdf5组，从而产生10 ^ 4组。 这样我们就不需要将所有数据都读入内存了，是吗？ hdf5结构虽然尚未定义，但它可以是任何东西。

现在的问题是：我一次收到~10 ^ 4行的数据（并且每次都没有完全相同的行数），需要将其逐步写入hdf5文件。 我该怎么写这个文件？

我正在考虑python和h5py，但如果推荐的话可以使用其他工具。 正在进行分组，例如

dset = f.create_dataset("voltage284", (100000,), maxshape=(None,), dtype='i8', chunks=(10000,))

然后当另一个10 ^ 4行的块到达时，替换数据集？

或者将每个10 ^ 4行的块存储为单独的数据集更好？ 或者我真的需要知道最后的行数吗？ （这很难获得，但也许可能）。

我可以保释hdf5，如果它也不是适合这项工作的工具，不过我认为一旦尴尬的写作完成，它就会很精彩。

Answer 1

根据FAQ ，您可以使用dset.resize扩展数据集。 例如，

import os
import h5py
import numpy as np
path = '/tmp/out.h5'
os.remove(path)
with h5py.File(path, "a") as f:
    dset = f.create_dataset('voltage284', (10**5,), maxshape=(None,),
                            dtype='i8', chunks=(10**4,))
    dset[:] = np.random.random(dset.shape)        
    print(dset.shape)
    # (100000,)

    for i in range(3):
        dset.resize(dset.shape[0]+10**4, axis=0)   
        dset[-10**4:] = np.random.random(10**4)
        print(dset.shape)
        # (110000,)
        # (120000,)
        # (130000,)

Answer 2

正如@unutbu指出的那样， dset.resize是一个很好的选择。 在查看pandas及其HDF5支持时可能会有效，这可能对您的工作流程有用。 听起来HDF5是一个合理的选择，但您可能会使用顶部的附加层更好地表达您的问题。

需要考虑的一件大事是数据的方向。 如果您主要对读取感兴趣，并且主要是按列提取数据，那么听起来您可能想要转置数据，以便在HDF5以行主顺序存储时按行发生读取。

使用h5py对hdf5进行增量写入

问题描述

2 个解决方案

解决方案1
24 已采纳 2014-09-04 01:53:18

解决方案2
7 2014-09-04 02:25:28

使用h5py对hdf5进行增量写入

问题描述

2 个解决方案

解决方案1 24 已采纳 2014-09-04 01:53:18

解决方案2 7 2014-09-04 02:25:28

解决方案1
24 已采纳 2014-09-04 01:53:18

解决方案2
7 2014-09-04 02:25:28