繁体   English   中英

Pickle dump Pandas DataFrame

[英]Pickle dump Pandas DataFrame

这是一个懒惰的人的问题。

我有400万行pandas DataFrame,并希望将它们保存到较小的pickle文件块中。

为什么小块? 更快地保存/加载它们。

我的问题是:1)是否有更好的方法(内置功能)将它们保存在较小的部分而不是使用np.array_split手动分块?

2)除了手动将它们粘在一起之外,有什么方法可以将它们粘在一起吗?

除了泡菜之外,请随意推荐适合此工作的任何其他数据类型。

如果目标是快速保存和加载,您应该考虑使用sql而不是原始文本pickle。 如果您的计算机在要求它写入400万行时发出窒息,您可以指定一个块大小。

从那里你可以用std查询切片。 SQL。

我一直在使用这个数据框大小为7,000,000 x 250

使用hdfs 文档

df = pd.DataFrame(np.random.rand(5, 5))
df

在此输入图像描述

df.to_hdf('myrandomstore.h5', 'this_df', append=False, complib='blosc', complevel=9)

new_df = pd.read_hdf('myrandomstore.h5', 'this_df')
new_df

在此输入图像描述

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM