繁体   English   中英

创建一个大型 pd.dataframe - 如何?

[英]Creating a large pd.dataframe - how?

我想从 7 个文件 4GB .txt 文件中创建一个大型 pd.dataframe,我想使用 + 保存到 .csv

我做了什么:

创建了一个 for 循环并在轴 = 0 上一一打开连接,因此继续我的索引(时间戳)。

但是我遇到了内存问题,即使我在 100GB 内存服务器上工作。 我在某处读到 Pandas 占用了数据大小的 5-10 倍。

我的选择是什么?

一个是创建一个空的 csv - 打开它 + txt + 附加一个新块并保存。

其他想法?

使用 h5py 库创建 hdf5 文件将允许您创建一个大数据集并访问它,而无需将所有数据加载到内存中。

此答案提供了如何创建和增量增加 hdf5 数据集的示例: incremental writes to hdf5 with h5py

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM