簡體   English   中英

Pickle dump Pandas DataFrame

[英]Pickle dump Pandas DataFrame

這是一個懶惰的人的問題。

我有400萬行pandas DataFrame,並希望將它們保存到較小的pickle文件塊中。

為什么小塊? 更快地保存/加載它們。

我的問題是:1)是否有更好的方法(內置功能)將它們保存在較小的部分而不是使用np.array_split手動分塊?

2)除了手動將它們粘在一起之外,有什么方法可以將它們粘在一起嗎?

除了泡菜之外,請隨意推薦適合此工作的任何其他數據類型。

如果目標是快速保存和加載,您應該考慮使用sql而不是原始文本pickle。 如果您的計算機在要求它寫入400萬行時發出窒息,您可以指定一個塊大小。

從那里你可以用std查詢切片。 SQL。

我一直在使用這個數據框大小為7,000,000 x 250

使用hdfs 文檔

df = pd.DataFrame(np.random.rand(5, 5))
df

在此輸入圖像描述

df.to_hdf('myrandomstore.h5', 'this_df', append=False, complib='blosc', complevel=9)

new_df = pd.read_hdf('myrandomstore.h5', 'this_df')
new_df

在此輸入圖像描述

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM