如何對 pandas 中的數據進行分組和重新采樣？

Question

我有不同日期不同客戶的銷售數據。 但是日期不是連續的，我想將數據重新采樣為每日頻率。 我怎樣才能做到這一點？

MWE

import numpy as np
import pandas as pd

df = pd.DataFrame({'id': list('aababcbc'),
                  'date': pd.date_range('2022-01-01',periods=8),
                  'value':range(8)}).sort_values('id')


df

id  date    value
0   a   2022-01-01  0
1   a   2022-01-02  1
3   a   2022-01-04  3
2   b   2022-01-03  2
4   b   2022-01-05  4
6   b   2022-01-07  6
5   c   2022-01-06  5
7   c   2022-01-08  7

所需的 output 如下

id  date    value  
a   2022-01-01  0  
a   2022-01-02  1  
a   2022-01-03  0 ** there is no data for a in this day  
a   2022-01-04  3

  
b   2022-01-03  2    
b   2022-01-04  0 ** there is no data for b in this day  
b   2022-01-05  4  
b   2022-01-06  0 ** there is no data for b in this day  
b   2022-01-07  6

  
c   2022-01-06  5  
c   2022-01-07  0 ** there is no data for c in this day
c   2022-01-08  7

我的嘗試

df.groupby(['id']).resample('D',on='date')['value'].sum().reset_index()

Answer 1

df["date"] = pd.to_datetime(df["date"])
df.set_index("date").groupby("id").resample("1d").sum()

Answer 2

def f(df):
    return df.resample('D', on='date')['value'].sum()
    
df.groupby(['id']).apply(f).reset_index()

產生：

   id       date  value
0   a 2022-01-01      0
1   a 2022-01-02      1
2   a 2022-01-03      0
3   a 2022-01-04      3
4   b 2022-01-03      2
5   b 2022-01-04      0
6   b 2022-01-05      4
7   b 2022-01-06      0
8   b 2022-01-07      6
9   c 2022-01-06      5
10  c 2022-01-07      0
11  c 2022-01-08      7

Answer 3

這是我想出的解決方案：

df.groupby(['id']).apply(lambda x: x.resample('D',on='date')['value'].sum()).reset_index()

id  date    value
0   a   2022-01-01  0
1   a   2022-01-02  1
2   a   2022-01-03  0
3   a   2022-01-04  3
4   b   2022-01-03  2
5   b   2022-01-04  0
6   b   2022-01-05  4
7   b   2022-01-06  0
8   b   2022-01-07  6
9   c   2022-01-06  5
10  c   2022-01-07  0
11  c   2022-01-08  7

Answer 4

這可能會給你一些可能的幫助來解決這個難題。

idx = pd.date_range('2022-01-01', '2022-1-31').to_frame()
df2 = pd.merge(df, idx, how='outer' , left_on='date', right_on=0)

df2

所以基本上這以“外部”方式合並兩個框架，這意味着它返回它們的所有可能行。

idx是一個 DF，其中包含您關注分析的所有日期，NaN 將是您的零值 --> ** 今天沒有 a 的數據

然后，您可以根據需要決定轉換、計數或推斷NaN行。

如何對 pandas 中的數據進行分組和重新采樣？

問題描述

MWE

我的嘗試

4 個解決方案

解決方案1
5 已采納 2022-08-29 21:55:31

解決方案2
2 2022-08-29 21:58:19

解決方案3
1 2022-08-29 21:59:03

解決方案4
0 2022-08-29 22:04:55

如何對 pandas 中的數據進行分組和重新采樣？

問題描述

MWE

我的嘗試

4 個解決方案

解決方案1 5 已采納 2022-08-29 21:55:31

解決方案2 2 2022-08-29 21:58:19

解決方案3 1 2022-08-29 21:59:03

解決方案4 0 2022-08-29 22:04:55

解決方案1
5 已采納 2022-08-29 21:55:31

解決方案2
2 2022-08-29 21:58:19

解決方案3
1 2022-08-29 21:59:03

解決方案4
0 2022-08-29 22:04:55