在同一个 CSV 文件中保存多个不同大小的列/变量

Question

我有大约 100 列，每一列都有大量的值。 我想将它们保存在 CSV 文件中，以便我可以读取该文件并在我的代码中使用这些列中的值。 唯一的问题是这些列彼此不相关并且它们的长度不同，因此从技术上讲它们不是数据帧的一部分。

我正在考虑将它们存储在一个 CSV 文件中，然后分别读取每一列并在我的代码中使用它。 因为这些列的长度不同并且不是数据帧的一部分，所以我想我必须在使用它之前过滤掉每列中的NaN值。

我想知道是否有一种更简单的方法可以存储（在文件中）和读取这些列。 我正在考虑列表或类似的东西。

提前致谢。

Answer 1

CSV 不是一种非常适合您的任务的格式。

由于您已经有一系列数据帧，我建议您考虑使用 HDF5 将数据帧有效地存储在单个文件中。 您可以同时启用压缩：

for idx, df in enumerate(list_of_dfs):
    df.to_hdf('data.h5', f'df_{idx}', complib='zlib', complevel=5)

这会为每个数据帧附加一个有序标识符，即df_0 、 df_1等。然后您可以通过pd.read_hdf读取特定的数据帧。 例如：

first_df = pd.read_hdf('data.h5', key='df_0')