簡體   English   中英

Python Pandas-有效地連接兩個Pandas列

[英]Python Pandas - Concatenate two Pandas column Efficiently

我正在尋找最有效的內存方式來連接Int 32和Datetime列以創建第3列。 我在Dataframe中有兩列int32和datetime64。 我想創建第3列,它將。

數據框如下所示:

在此處輸入圖片說明

我想要的是:

在此處輸入圖片說明

我創建了一個測試數據框架,如下所示:

import pandas as pd
import numpy as np
import sys
import datetime as dt
%load_ext memory_profiler
np.random.seed(42)
df_rows = 10**6
todays_date = dt.datetime.now().date()
dt_array = pd.date_range(todays_date - dt.timedelta(2*365), periods=2*365, freq='D')  
cust_id_array = np.random.randint(100000,999999,size=(100000, 1))
df = pd.DataFrame({'cust_id':np.random.choice(cust_id_array.flatten(),df_rows,replace=True)
                  ,'tran_dt':np.random.choice(dt_array,df_rows,replace=True)})
df.info()

串聯之前的數據幀統計信息如下: 在此處輸入圖片說明

我已經使用了map和astype來串聯,但是內存使用率仍然很高:

%memit -r 1 df['comb_key'] = df["cust_id"].map(str) + '----' + df["tran_dt"].map(str)

%memit -r 1 df['comb_key'] = df["cust_id"].astype(str) + '----' + df["tran_dt"].astype(str)

%memit -r 1 df['comb_key'] = df.apply(lambda x:  str(str(x['cust_id']) \
+ '----' + dt.datetime.strftime(x['tran_dt'],'%Y-%m-%d')), axis=1)

3個的內存使用情況是: 在此處輸入圖片說明

有沒有更有效的內存方式來做到這一點? 我的真實數據集是在具有16GB RAM的計算機上未壓縮的約1.8GB。

df['comb_key'] = df["cust_id"].astype(str) + '----' + df["tran_dt"].astype(str)

它是計算上最快的方法,因為您實際上僅對數據的每個元素執行一種類型轉換,並且幾乎所有這些操作都在C中進行。

因此,如果遇到內存問題,則必須分節進行,例如:2:

%%memit
df['comb_key'] = ''
df.comb_key.update(df["cust_id"].iloc[:500000].astype(str) + '----' + df["tran_dt"].iloc[:500000].astype(str))
df.comb_key.update(df["cust_id"].iloc[500000:].astype(str) + '----' + df["tran_dt"].iloc[500000:].astype(str))

# peak memory: 253.06 MiB, increment: 63.25 MiB

請注意,新列消耗65MB的內存:

df.memory_usage(deep=True)

# Index             72
# cust_id      8000000
# tran_dt      8000000
# comb_key    65000000
# dtype: int64

因此,請確保您有足夠的內存來首先存儲結果! 但是,可能很重要的一點是要注意,如果執行此操作時遇到內存問題,但以某種方式足以存儲結果,則很可能沒有足夠的內存來對數據幀進行更多工作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM