[英]Saving multiple columns/variables with different sizes in the same CSV file
我有大约 100 列,每一列都有大量的值。 我想将它们保存在 CSV 文件中,以便我可以读取该文件并在我的代码中使用这些列中的值。 唯一的问题是这些列彼此不相关并且它们的长度不同,因此从技术上讲它们不是数据帧的一部分。
我正在考虑将它们存储在一个 CSV 文件中,然后分别读取每一列并在我的代码中使用它。 因为这些列的长度不同并且不是数据帧的一部分,所以我想我必须在使用它之前过滤掉每列中的NaN
值。
我想知道是否有一种更简单的方法可以存储(在文件中)和读取这些列。 我正在考虑列表或类似的东西。
提前致谢。
CSV 不是一种非常适合您的任务的格式。
由于您已经有一系列数据帧,我建议您考虑使用 HDF5 将数据帧有效地存储在单个文件中。 您可以同时启用压缩:
for idx, df in enumerate(list_of_dfs):
df.to_hdf('data.h5', f'df_{idx}', complib='zlib', complevel=5)
这会为每个数据帧附加一个有序标识符,即df_0
、 df_1
等。然后您可以通过pd.read_hdf
读取特定的数据帧。 例如:
first_df = pd.read_hdf('data.h5', key='df_0')
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.