簡體   English   中英

Pandas- 日期時間的累計和每天重新開始

[英]Pandas- Cumulative sum on date time and start over every day

假設我有這個數據框。

    import pandas as pd
    data = {"Date_Time": ["2018-08-14 02:00:00", "2018-08-14 01:00:00", "2018-08-14 00:00:00", "2018-08-13 23:00:00", "2018-08-13 22:00:00", "2018-08-13 21:00:00", "2018-08-13 20:00:00"], 
        "Date": ["2018-08-14", "2018-08-14", "2018-08-14", "2018-08-13", "2018-08-13", "2018-08-13", "2018-08-13"], 
        "Duration":[3, 0, 0, 10, 2, 20, 1], 
        "value":[4, 3, 2, 1, 0, 23, 22],
        "Remark":["e", "o", "k", "x", "c", "z", "a"]
       }
    df = pd.DataFrame.from_dict(data)
    df

    Date_Time                 Date    Duration  value   Remark
0   2018-08-14 02:00:00     2018-08-14    3       4     e
1   2018-08-14 01:00:00     2018-08-14    0       3     o
2   2018-08-14 00:00:00     2018-08-14    0       2     k
3   2018-08-13 23:00:00     2018-08-13    10      1     x
4   2018-08-13 22:00:00     2018-08-13    2       0     c
5   2018-08-13 21:00:00     2018-08-13    20      23    z
6   2018-08-13 20:00:00     2018-08-13    1       22    a

我想對每一天進行累計總和。 但是,我希望我的一天從每天 22:00 開始。 因此,“值”列是對當天小時的引用。

或者我可以

    from datetime import timedelta
    two_hours = pd.Timedelta(hours=2)
    df["dummy_date"] = df["Date_Time"] + two_hours
    df

    Date_Time               Date    Duration    value   Remark      dummy_date
0   2018-08-14 02:00:00     2018-08-14    3     4     e         2018-08-14 04:00:00
1   2018-08-14 01:00:00     2018-08-14    0     3     o         2018-08-14 03:00:00
2   2018-08-14 00:00:00     2018-08-14    0     2     k         2018-08-14 02:00:00
3   2018-08-13 23:00:00     2018-08-13    10    1     x         2018-08-14 01:00:00
4   2018-08-13 22:00:00     2018-08-13    2     0     c         2018-08-14 00:00:00
5   2018-08-13 21:00:00     2018-08-13    20    23    z         2018-08-13 23:00:00
6   2018-08-13 20:00:00     2018-08-13    1     22    a         2018-08-13 22:00:00

如果這有助於您了解我如何計算“dummy_date”中所示的一天。

但是,我真正想要的是我想每天對“持續時間”列進行累積求和。 因此,當“value”為 0 或“dummy_date”列的午夜時,cumsum 將每天重新開始。 以下是我希望實現的期望輸出。

        Date_Time               Date      Duration  value   Remark  cum_sum     dummy_date       
    0   2018-08-14 02:00:00     2018-08-14     3        4         e     15  2018-08-14 04:00:00
    1   2018-08-14 01:00:00     2018-08-14     0        3         o     12  2018-08-14 03:00:00
    2   2018-08-14 00:00:00     2018-08-14     0        2         k     12  2018-08-14 02:00:00
    3   2018-08-13 23:00:00     2018-08-13    10        1         x     12  2018-08-14 01:00:00
    4   2018-08-13 22:00:00     2018-08-13     2        0         c      2  2018-08-14 00:00:00
    5   2018-08-13 21:00:00     2018-08-13    20       23         z     21  2018-08-13 23:00:00
    6   2018-08-13 20:00:00     2018-08-13     1       22         a      1  2018-08-13 22:00:00

第一行的 cum_sum 是從第四行往上的持續時間之和,2 + 10 + 0 + 0 + 3 = 15。

第二行是 2 + 10 + 0 + 0 = 12。

第三行是 2 + 10 + 0 = 12。

第三行是 2 + 10 = 12。

第四行是 2 = 2。

第五行是第六行和第五行的和,1 + 20 = 21,因為“值”是23,這被認為是另一天,或者從“dummy_date”可以看出。

第六行是 1。

我的嘗試是使用熊貓的滾動。 但是,我不知道如何將它設置為在新的一天開始時重新開始。

df["cum_sum"] = df["Duration"].rolling(24, min_periods=1).sum()
df

我相信,通過改變需要為了iloc[::-1]sort_values ,然后groupby通過datesdummy_date列或SeriesDataFrameGroupBy.cumsum

df["cum_sum"] = df["Duration"].iloc[::-1].groupby(df['dummy_date'].dt.date).cumsum()
print (df)
            Date_Time        Date  Duration  value Remark          dummy_date  \
0 2018-08-14 02:00:00  2018-08-14         3      4      e 2018-08-14 04:00:00   
1 2018-08-14 01:00:00  2018-08-14         0      3      o 2018-08-14 03:00:00   
2 2018-08-14 00:00:00  2018-08-14         0      2      k 2018-08-14 02:00:00   
3 2018-08-13 23:00:00  2018-08-13        10      1      x 2018-08-14 01:00:00   
4 2018-08-13 22:00:00  2018-08-13         2      0      c 2018-08-14 00:00:00   
5 2018-08-13 21:00:00  2018-08-13        20     23      z 2018-08-13 23:00:00   
6 2018-08-13 20:00:00  2018-08-13         1     22      a 2018-08-13 22:00:00   

   cum_sum  
0       15  
1       12  
2       12  
3       12  
4        2  
5       21  
6        1  

如果在輸出中不需要dummy_date

two_hours = pd.Timedelta(hours=2)
dates = (df["Date_Time"] + two_hours).dt.date
df["cum_sum"] = df["Duration"].iloc[::-1].groupby(dates).cumsum()
print (df)
            Date_Time        Date  Duration  value Remark  cum_sum
0 2018-08-14 02:00:00  2018-08-14         3      4      e       15
1 2018-08-14 01:00:00  2018-08-14         0      3      o       12
2 2018-08-14 00:00:00  2018-08-14         0      2      k       12
3 2018-08-13 23:00:00  2018-08-13        10      1      x       12
4 2018-08-13 22:00:00  2018-08-13         2      0      c        2
5 2018-08-13 21:00:00  2018-08-13        20     23      z       21
6 2018-08-13 20:00:00  2018-08-13         1     22      a        1

df = df.sort_values('Date_Time')
two_hours = pd.Timedelta(hours=2)
dates = (df["Date_Time"] + two_hours).dt.date
df["cum_sum"] = df["Duration"].groupby(dates).cumsum()
df = df.sort_index()
print (df)
            Date_Time        Date  Duration  value Remark  cum_sum
0 2018-08-14 02:00:00  2018-08-14         3      4      e       15
1 2018-08-14 01:00:00  2018-08-14         0      3      o       12
2 2018-08-14 00:00:00  2018-08-14         0      2      k       12
3 2018-08-13 23:00:00  2018-08-13        10      1      x       12
4 2018-08-13 22:00:00  2018-08-13         2      0      c        2
5 2018-08-13 21:00:00  2018-08-13        20     23      z       21
6 2018-08-13 20:00:00  2018-08-13         1     22      a        1

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM