簡體   English   中英

Pandas 通過在時間戳字段上滾動 window function 組

[英]Pandas group by rolling window function on a timestamp field

我想在按 ID 列分組后添加列中包含的日期和日期。

下面生成一個示例 df:

df = pd.DataFrame(
    {
        "ID":[1,1,1,1,2,2,2,3,3,3,3,3,3],
        "Date":list(pd.date_range("2018-1-1", "2018-4-10", periods=4)) + list(pd.date_range("2018-6-6", "2018-7-30", periods=3)) + list(pd.date_range("2018-1-1", "2020-1-1", periods=6))
    }
)
df['date_intervals'] = df.groupby('ID').Date.diff()
df['new_date_intermediate'] = df.date_intervals.mask(pd.isnull, df['Date'])

這導致了這個df: 在此處輸入圖像描述

按 ID 字段分組,我想要一個累積總和返回日期。

例如,對於 ID = 1,我想要第一行 + 第二行的向量,這將是 2018 年 1 月 1 日 + 33 天,然后是該總和的結果加上第三行,即再加上 33 天.

你可以做cumsum

df['new_date_intermediate'] = df.groupby('ID')['new_date_intermediate'].apply(lambda x :x.cumsum())
df
    ID       Date date_intervals new_date_intermediate
0    1 2018-01-01            NaT   2018-01-01 00:00:00
1    1 2018-02-03        33 days   2018-02-03 00:00:00
2    1 2018-03-08        33 days   2018-03-08 00:00:00
3    1 2018-04-10        33 days   2018-04-10 00:00:00
4    2 2018-06-06            NaT   2018-06-06 00:00:00
5    2 2018-07-03        27 days   2018-07-03 00:00:00
6    2 2018-07-30        27 days   2018-07-30 00:00:00
7    3 2018-01-01            NaT   2018-01-01 00:00:00
8    3 2018-05-27       146 days   2018-05-27 00:00:00
9    3 2018-10-20       146 days   2018-10-20 00:00:00
10   3 2019-03-15       146 days   2019-03-15 00:00:00
11   3 2019-08-08       146 days   2019-08-08 00:00:00
12   3 2020-01-01       146 days   2020-01-01 00:00:00

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM