Python Pandas-有效地连接两个Pandas列

Question

我正在寻找最有效的内存方式来连接Int 32和Datetime列以创建第3列。 我在Dataframe中有两列int32和datetime64。 我想创建第3列，它将。

数据框如下所示：

我想要的是：

我创建了一个测试数据框架，如下所示：

import pandas as pd
import numpy as np
import sys
import datetime as dt
%load_ext memory_profiler
np.random.seed(42)
df_rows = 10**6
todays_date = dt.datetime.now().date()
dt_array = pd.date_range(todays_date - dt.timedelta(2*365), periods=2*365, freq='D')  
cust_id_array = np.random.randint(100000,999999,size=(100000, 1))
df = pd.DataFrame({'cust_id':np.random.choice(cust_id_array.flatten(),df_rows,replace=True)
                  ,'tran_dt':np.random.choice(dt_array,df_rows,replace=True)})
df.info()

串联之前的数据帧统计信息如下：

我已经使用了map和astype来串联，但是内存使用率仍然很高：

%memit -r 1 df['comb_key'] = df["cust_id"].map(str) + '----' + df["tran_dt"].map(str)

%memit -r 1 df['comb_key'] = df["cust_id"].astype(str) + '----' + df["tran_dt"].astype(str)

%memit -r 1 df['comb_key'] = df.apply(lambda x:  str(str(x['cust_id']) \
+ '----' + dt.datetime.strftime(x['tran_dt'],'%Y-%m-%d')), axis=1)

3个的内存使用情况是：

有没有更有效的内存方式来做到这一点？ 我的真实数据集是在具有16GB RAM的计算机上未压缩的约1.8GB。

Answer 1

df['comb_key'] = df["cust_id"].astype(str) + '----' + df["tran_dt"].astype(str)

它是计算上最快的方法，因为您实际上仅对数据的每个元素执行一种类型转换，并且几乎所有这些操作都在C中进行。

因此，如果遇到内存问题，则必须分节进行，例如：2：

%%memit
df['comb_key'] = ''
df.comb_key.update(df["cust_id"].iloc[:500000].astype(str) + '----' + df["tran_dt"].iloc[:500000].astype(str))
df.comb_key.update(df["cust_id"].iloc[500000:].astype(str) + '----' + df["tran_dt"].iloc[500000:].astype(str))

# peak memory: 253.06 MiB, increment: 63.25 MiB

请注意，新列消耗65MB的内存：

df.memory_usage(deep=True)

# Index             72
# cust_id      8000000
# tran_dt      8000000
# comb_key    65000000
# dtype: int64

因此，请确保您有足够的内存来首先存储结果！ 但是，可能很重要的一点是要注意，如果执行此操作时遇到内存问题，但以某种方式足以存储结果，则很可能没有足够的内存来对数据帧进行更多工作。

Python Pandas-有效地连接两个Pandas列

问题描述

1 个解决方案

解决方案1
0 2017-05-12 10:02:16

Python Pandas-有效地连接两个Pandas列

问题描述

1 个解决方案

解决方案1 0 2017-05-12 10:02:16

解决方案1
0 2017-05-12 10:02:16