使用正則表達式有效地用pandas中另一列的值替換一列中的部分值？

Question

我有一個pandas dataframe df ，日期為字符串：

Date1        Date2
2017-08-31   1970-01-01 17:35:00
2017-10-31   1970-01-01 15:00:00
2017-11-30   1970-01-01 16:30:00
2017-10-31   1970-01-01 16:00:00
2017-10-31   1970-01-01 16:12:00

我想要做的就是替換每個日期部分的Date2 ，在相應的日期列Date1 ，但留下的時間不變，所以輸出：

Date1        Date2
2017-08-31   2017-08-31 17:35:00
2017-10-31   2017-10-31 15:00:00
2017-11-30   2017-11-30 16:30:00
2017-10-31   2017-10-31 16:00:00
2017-10-31   2017-10-31 16:12:00

我已經使用pandas replace和regex這樣做了

import re
date_reg = re.compile(r"([0-9]{4}\-[0-9]{2}\-[0-9]{2})")
df['Market Close Time'].replace(to_replace=date_reg, value=df['Date1'], inplace=True)

但對於只有150k行的數據幀，此方法非常慢（> 10分鍾）。

這個帖子的解決方案實現了numpy np.where ，速度要快得多 - 如何在這個例子中使用np.where ，還是有另一種更有效的方法來執行這個操作？

Answer 1

一個想法是：

df['Date3'] =  ['{} {}'.format(a, b.split()[1]) for a, b in zip(df['Date1'], df['Date2'])]

要么：

df['Date3'] = df['Date1'] + ' ' + df['Date2'].str.split().str[1]
print (df)
        Date1                Date2                Date3
0  2017-08-31  1970-01-01 17:35:00  2017-08-31 17:35:00
1  2017-10-31  1970-01-01 15:00:00  2017-10-31 15:00:00
2  2017-11-30  1970-01-01 16:30:00  2017-11-30 16:30:00
3  2017-10-31  1970-01-01 16:00:00  2017-10-31 16:00:00
4  2017-10-31  1970-01-01 16:12:00  2017-10-31 16:12:00

要么：

df['Date3'] = pd.to_datetime(df['Date1']) + pd.to_timedelta(df['Date2'].str.split().str[1])
print (df)
        Date1                Date2               Date3
0  2017-08-31  1970-01-01 17:35:00 2017-08-31 17:35:00
1  2017-10-31  1970-01-01 15:00:00 2017-10-31 15:00:00
2  2017-11-30  1970-01-01 16:30:00 2017-11-30 16:30:00
3  2017-10-31  1970-01-01 16:00:00 2017-10-31 16:00:00
4  2017-10-31  1970-01-01 16:12:00 2017-10-31 16:12:00

時間：

In [302]: %timeit df['Date3'] =  ['{} {}'.format(a, b.split()[1]) for a, b in zip(df['Date1'], df['Date2'])]
30.2 ms ± 137 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [303]: %timeit df['Date3'] = df['Date1'] + ' ' + df['Date2'].str.split().str[1]
66.4 ms ± 3.18 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

Answer 2

另一種方式是

df.Date2 = df.Date1.str[:].values + df.Date2.str[10:].values

df.Date1.str[:].values將Date1字段作為numpy數組，同樣使用Date2字段。

str[10:]用於提取Date2的時間部分，該部分附加到Date1的日期。

計時： 2.26 ms±82.2μs

%timeit df.d2 = df.d1.str[:].values + df.d2.str[10:].values
2.26 ms ± 82.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

使用正則表達式有效地用pandas中另一列的值替換一列中的部分值？

問題描述

2 個解決方案

解決方案1
3 已采納 2018-05-29 11:31:58

解決方案2
2 2018-05-29 12:14:19

使用正則表達式有效地用pandas中另一列的值替換一列中的部分值？

問題描述

2 個解決方案

解決方案1 3 已采納 2018-05-29 11:31:58

解決方案2 2 2018-05-29 12:14:19

解決方案1
3 已采納 2018-05-29 11:31:58

解決方案2
2 2018-05-29 12:14:19