從給定日期提取日、月和年的最快方法是什么？

Question

我將一個包含 150,000 行的 csv 文件讀入熊貓數據幀。 此數據框有一個字段Date ，日期為yyyy-mm-dd格式。 我想從中提取月、日和年，並分別復制到數據框的列Month 、 Day和Year 。 對於幾百條記錄，以下兩種方法可以正常工作，但是對於 150,000 條記錄，它們都需要很長的時間來執行。 有沒有更快的方法來處理 100,000 多條記錄？

第一種方法：

df = pandas.read_csv(filename)
for i in xrange(len(df)): 
   df.loc[i,'Day'] = int(df.loc[i,'Date'].split('-')[2])

第二種方法：

df = pandas.read_csv(filename)
for i in xrange(len(df)):
   df.loc[i,'Day'] = datetime.strptime(df.loc[i,'Date'], '%Y-%m-%d').day

謝謝你。

Answer 1

在 0.15.0 中，您將能夠使用新的 .dt 訪問器在語法上做到這一點。

In [36]: df = DataFrame(date_range('20000101',periods=150000,freq='H'),columns=['Date'])

In [37]: df.head(5)
Out[37]: 
                 Date
0 2000-01-01 00:00:00
1 2000-01-01 01:00:00
2 2000-01-01 02:00:00
3 2000-01-01 03:00:00
4 2000-01-01 04:00:00

[5 rows x 1 columns]

In [38]: %timeit f(df)
10 loops, best of 3: 22 ms per loop

In [39]: def f(df):
    df = df.copy()
    df['Year'] = DatetimeIndex(df['Date']).year
    df['Month'] = DatetimeIndex(df['Date']).month
    df['Day'] = DatetimeIndex(df['Date']).day
    return df
   ....: 

In [40]: f(df).head()
Out[40]: 
                 Date  Year  Month  Day
0 2000-01-01 00:00:00  2000      1    1
1 2000-01-01 01:00:00  2000      1    1
2 2000-01-01 02:00:00  2000      1    1
3 2000-01-01 03:00:00  2000      1    1
4 2000-01-01 04:00:00  2000      1    1

[5 rows x 4 columns]

從 0.15.0 開始（2014 年 9 月末發布），現在可以使用新的 .dt 訪問器執行以下操作：

df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month
df['Day'] = df['Date'].dt.day

Answer 2

我使用下面的代碼，這對我來說效果很好

df['Year']=[d.split('-')[0] for d in df.Date]
df['Month']=[d.split('-')[1] for d in df.Date]
df['Day']=[d.split('-')[2] for d in df.Date]

df.head(5)

Answer 3

這是我找到的最干凈的答案。

df = df.assign(**{t:getattr(df.data.dt,t) for t in nomtimes})

In [30]: df = pd.DataFrame({'data':pd.date_range(start, end)})

In [31]: df.head()
Out[31]:
        data
0 2011-01-01
1 2011-01-02
2 2011-01-03
3 2011-01-04
4 2011-01-05

nomtimes = ["year", "hour", "month", "dayofweek"] 
df = df.assign(**{t:getattr(df.data.dt,t) for t in nomtimes})

In [33]: df.head()
Out[33]:
        data  dayofweek  hour  month  year
0 2011-01-01          5     0      1  2011
1 2011-01-02          6     0      1  2011
2 2011-01-03          0     0      1  2011
3 2011-01-04          1     0      1  2011
4 2011-01-05          2     0      1  2011

從給定日期提取日、月和年的最快方法是什么？

問題描述

3 個解決方案

解決方案1
38 已采納 2014-02-22 13:25:09

解決方案2
3 2016-04-15 10:36:48

解決方案3
1 2021-02-19 00:29:37

從給定日期提取日、月和年的最快方法是什么？

問題描述

3 個解決方案

解決方案1 38 已采納 2014-02-22 13:25:09

解決方案2 3 2016-04-15 10:36:48

解決方案3 1 2021-02-19 00:29:37

解決方案1
38 已采納 2014-02-22 13:25:09

解決方案2
3 2016-04-15 10:36:48

解決方案3
1 2021-02-19 00:29:37