使用h5py压缩现有文件

Question

我目前正在开发一个关于压缩HDF5数据集的项目，最近开始使用h5py。 我遵循基本教程，能够在创建文件时打开，创建和压缩文件。 但是，在压缩现有文件时这是不成功的（这是我工作的目的）。

我尝试使用'r +'打开文件，然后压缩分块数据集，但文件大小保持不变。

有关使用什么命令的建议或我是否以错误的方式处理事情？

Answer 1

压缩在h5py中非常容易使用。 查看Wiki HowTo和Compression指南。 基本上，它会是这样的：

ds = myfile.create_dataset('ds', shape, dtype, compression='lzf')

如何选择块大小以优化文件大小/访问权限也存在一些问题，请参阅我链接到的压缩指南。

我不记得默认情况下打开哪个压缩（如果有）。

Answer 2

HDF组提供了一组工具，用于转换，显示，分析，编辑和重新打包HDF5文件。

您可以使用h5repack实用程序压缩现有的hdf5文件。 您还可以使用相同的实用程序更改块大小。

h5repack可以在命令行中使用。

h5repack file1 file2 //删除文件1的占用空间并将其保存为file2。

h5repack -v -l CHUNK=1024 file1 file2 //将1024的分块应用于file1

h5repack -v -l CHUNK=1024 GZIP=5 file1 file2 //生成1024块并使用GZIP 5级压缩进行压缩

h5repack --help \\获取有用的帮助文档

还提供详细的文档。