繁体   English   中英

从熊猫的字符串日期时间列中提取日期

[英]Extract date from string datetime column in pandas

我在 pandas 数据框中有一列 cash_date 是一个对象。 我无法在这里使用 pandas to_datetime 函数。 我的数据框的形状是 (47654566,5)。我的数据框看起来像

cash_date                                amount    id
02-JAN-13 12.00.00.000000000 AM           100       1
13-FEB-13 12.00.00.000000000 AM           200       2
09-MAR-13 12.00.00.000000000 AM           300       3
03-APR-13 12.00.00.000000000 AM           400       4
02-JAN-13 06.26.02.438000000 PM           500       7
17-NOV-18 08.31.47.443000000 PM           700       8

我尝试了以下方法-

df.cash_date = pd.to_datetime(df['cash_date'], errors='coerce') # Not working

for i in range(len(df)):
    df.cash_date = df.cash_date.astype(str).str.split('\d\d.\d\d.\d\d.\d\d\d\d\d\d\d\d\d')[i][0] # Not working

我希望数据框看起来像 s-

cash_date                                amount    id       date
02-JAN-13 12.00.00.000000000 AM           100       1       02-JAN-13
13-FEB-13 12.00.00.000000000 AM           200       2       13-FEB-13
09-MAR-13 12.00.00.000000000 AM           300       3       09-MAR-13
03-APR-13 12.00.00.000000000 AM           400       4       03-APR-13
02-JAN-13 06.26.02.438000000 PM           500       7       02-JAN-13
17-NOV-18 08.31.47.443000000 PM           700       8       17-NOV-18

指定一个format=...参数。

pd.to_datetime(df['cash_date'], format='%d-%b-%y %H.%M.%S.%f %p', errors='coerce')

0   2013-01-02 12:00:00.000
1   2013-02-13 12:00:00.000
2   2013-03-09 12:00:00.000
3   2013-04-03 12:00:00.000
4   2013-01-02 06:26:02.438
5   2018-11-17 08:31:47.443
Name: cash_date, dtype: datetime64[ns]

有关可接受格式的详细信息,请访问 http://strftime.org

从这里,您可以使用dt.floordt.floor datetimes dt.floor

df['date'] = pd.to_datetime(
    df['cash_date'], format='%d-%b-%y %H.%M.%S.%f %p', errors='coerce'
).dt.floor('D')

df
                         cash_date  amount  id       date
0  02-JAN-13 12.00.00.000000000 AM     100   1 2013-01-02
1  13-FEB-13 12.00.00.000000000 AM     200   2 2013-02-13
2  09-MAR-13 12.00.00.000000000 AM     300   3 2013-03-09
3  03-APR-13 12.00.00.000000000 AM     400   4 2013-04-03
4  02-JAN-13 06.26.02.438000000 PM     500   7 2013-01-02
5  17-NOV-18 08.31.47.443000000 PM     700   8 2018-11-17

OTOH,如果您想在解析日期的情况下提取日期组件,有几个选项:

str.split

df['date'] = df['cash_date'].str.split(n=1).str[0]
df
                         cash_date  amount  id       date
0  02-JAN-13 12.00.00.000000000 AM     100   1  02-JAN-13
1  13-FEB-13 12.00.00.000000000 AM     200   2  13-FEB-13
2  09-MAR-13 12.00.00.000000000 AM     300   3  09-MAR-13
3  03-APR-13 12.00.00.000000000 AM     400   4  03-APR-13
4  02-JAN-13 06.26.02.438000000 PM     500   7  02-JAN-13
5  17-NOV-18 08.31.47.443000000 PM     700   8  17-NOV-18

或者,使用列表理解

df['date'] = [x.split(None, 1)[0] for x in df['cash_date']]
df
                         cash_date  amount  id       date
0  02-JAN-13 12.00.00.000000000 AM     100   1  02-JAN-13
1  13-FEB-13 12.00.00.000000000 AM     200   2  13-FEB-13
2  09-MAR-13 12.00.00.000000000 AM     300   3  09-MAR-13
3  03-APR-13 12.00.00.000000000 AM     400   4  03-APR-13
4  02-JAN-13 06.26.02.438000000 PM     500   7  02-JAN-13
5  17-NOV-18 08.31.47.443000000 PM     700   8  17-NOV-18

我敢打赌这是两种选择中较快的一种

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM