将 DataFrame 列类型从字符串转换为日期时间

Question

如何将 DataFrame 字符串列（ dd/mm/yyyy格式）转换为 datetime dtype？

Answer 1

最简单的方法是使用to_datetime ：

df['col'] = pd.to_datetime(df['col'])

它还为欧洲时间提供了dayfirst参数（但要注意这不是严格的）。

这是在行动：

In [11]: pd.to_datetime(pd.Series(['05/23/2005']))
Out[11]:
0   2005-05-23 00:00:00
dtype: datetime64[ns]

您可以传递特定格式：

In [12]: pd.to_datetime(pd.Series(['05/23/2005']), format="%m/%d/%Y")
Out[12]:
0   2005-05-23
dtype: datetime64[ns]

Answer 2

如果您的日期列是格式为“2017-01-01”的字符串，您可以使用 pandas astype 将其转换为日期时间。

df['date'] = df['date'].astype('datetime64[ns]')

或使用 datetime64[D] 如果您想要 Day 精度而不是纳秒

print(type(df_launath['date'].iloc[0]))

产量

<class 'pandas._libs.tslib.Timestamp'>与使用 pandas.to_datetime 时相同

您可以尝试使用其他格式然后 '%Y-%m-%d' 但至少这是有效的。

Answer 3

如果要指定棘手的格式，可以使用以下内容：

df['date_col'] =  pd.to_datetime(df['date_col'], format='%d/%m/%Y')

有关format更多详细信息，请访问：

Python 2 https://docs.python.org/2/library/datetime.html#strftime-strptime-behavior
Python 3 https://docs.python.org/3.7/library/datetime.html#strftime-strptime-behavior

Answer 4

如果您的日期中有多种格式，请不要忘记设置infer_datetime_format=True以使生活更轻松。

df['date'] = pd.to_datetime(df['date'], infer_datetime_format=True)

来源： pd.to_datetime

或者如果你想要一个定制的方法：

def autoconvert_datetime(value):
    formats = ['%m/%d/%Y', '%m-%d-%y']  # formats to try
    result_format = '%d-%m-%Y'  # output format
    for dt_format in formats:
        try:
            dt_obj = datetime.strptime(value, dt_format)
            return dt_obj.strftime(result_format)
        except Exception as e:  # throws exception when format doesn't match
            pass
    return value  # let it be if it doesn't match

df['date'] = df['date'].apply(autoconvert_datetime)

Answer 5

试试这个解决方案：

'2022–12–31 00:00:00' to '2022–12–31 00:00:01'
然后运行此代码： pandas.to_datetime(pandas.Series(['2022–12–31 00:00:01']))
Output: 2022–12–31 00:00:01

Answer 6

多个日期时间列

如果要将多个字符串列转换为日期时间，那么使用apply()会很有用。

df[['date1', 'date2']] = df[['date1', 'date2']].apply(pd.to_datetime)

您可以将参数作为 kwargs 传递给to_datetime 。

df[['start_date', 'end_date']] = df[['start_date', 'end_date']].apply(pd.to_datetime, format="%m/%d/%Y")

使用`format=`来加速

如果该列包含时间部分并且您知道日期时间/时间的格式，那么显式传递格式将显着加快转换速度。 不过，如果该列只有日期，则几乎没有任何区别。 在我的项目中，对于具有 500 万行的列，差异是巨大的：~2.5 分钟对 6 秒。

事实证明，明确指定格式大约快 25 倍。 以下运行时 plot 表明，根据您是否通过格式，性能存在巨大差距。

用于生成 plot 的代码：

import perfplot
import random

mdYHM = range(1, 13), range(1, 29), range(2000, 2024), range(24), range(60)
perfplot.show(
    kernels=[lambda x: pd.to_datetime(x), lambda x: pd.to_datetime(x, format='%m/%d/%Y %H:%M')],
    labels=['pd.to_datetime(x)', "pd.to_datetime(x, format='%m/%d/%Y %H:%M')"],
    n_range=[2**k for k in range(19)],
    setup=lambda n: pd.Series([f"{m}/{d}/{Y} {H}:{M}" 
                               for m,d,Y,H,M in zip(*[random.choices(e, k=n) for e in mdYHM])]),
    equality_check=pd.Series.equals,
    xlabel='len(df)'
)

将 DataFrame 列类型从字符串转换为日期时间

问题描述

6 个解决方案

解决方案1
588 已采纳 2013-06-16 15:18:23

解决方案2
50 2017-06-26 14:35:27

解决方案3
41 2018-05-02 08:14:16

解决方案4
9 2019-07-28 01:04:52

解决方案5
0 2022-11-01 19:43:05

解决方案6
0 2023-01-27 02:05:08

多个日期时间列

使用`format=`来加速

将 DataFrame 列类型从字符串转换为日期时间

问题描述

6 个解决方案

解决方案1 588 已采纳 2013-06-16 15:18:23

解决方案2 50 2017-06-26 14:35:27

解决方案3 41 2018-05-02 08:14:16

解决方案4 9 2019-07-28 01:04:52

解决方案5 0 2022-11-01 19:43:05

解决方案6 0 2023-01-27 02:05:08

多个日期时间列

使用format=来加速

解决方案1
588 已采纳 2013-06-16 15:18:23

解决方案2
50 2017-06-26 14:35:27

解决方案3
41 2018-05-02 08:14:16

解决方案4
9 2019-07-28 01:04:52

解决方案5
0 2022-11-01 19:43:05

解决方案6
0 2023-01-27 02:05:08

使用`format=`来加速