基於多列分組的熊貓滾動平均值

Question

我有一個長格式的數據框，在兩列中有重復的值，在另一列中有數據。 我想為每個組查找SMA。 我的問題是： rolling()只是忽略了數據按兩列分組的事實。

這是一些偽數據和代碼。

import numpy as np
import pandas as pd

dtix=pd.Series(pd.date_range(start='1/1/2019', periods=4) )
df=pd.DataFrame({'ix1':np.repeat([0,1],4), 'ix2':pd.concat([dtix,dtix]), 'data':np.arange(0,8) })
df

ix1 ix2 data
0   0   2019-01-01  0
1   0   2019-01-02  1
2   0   2019-01-03  2
3   0   2019-01-04  3
0   1   2019-01-01  4
1   1   2019-01-02  5
2   1   2019-01-03  6
3   1   2019-01-04  7

現在，當我對這些數據執行分組的滾動均值時，得到的輸出如下：

df.groupby(['ix1','ix2']).agg({'data':'mean'}).rolling(2).mean()

data
ix1 ix2 
0   2019-01-01  NaN
    2019-01-02  0.5
    2019-01-03  1.5
    2019-01-04  2.5
1   2019-01-01  3.5
    2019-01-02  4.5
    2019-01-03  5.5
    2019-01-04  6.5

所需的輸出：而我實際上想要的是：

sma
ix1 ix2 
0   2019-01-01  NaN
    2019-01-02  0.5
    2019-01-03  1.5
    2019-01-04  2.5
1   2019-01-01  NaN
    2019-01-02  4.5
    2019-01-03  5.5
    2019-01-04  6.5

感謝您的幫助。

Answer 1

使用另一個groupby由firast水平（ ix1 ）與rolling ：

df1 = (df.groupby(['ix1','ix2'])
         .agg({'data':'mean'})
         .groupby(level=0, group_keys=False)
         .rolling(2)
         .mean())
print (df1)
                data
ix1 ix2             
0   2019-01-01   NaN
    2019-01-02   0.5
    2019-01-03   1.5
    2019-01-04   2.5
1   2019-01-01   NaN
    2019-01-02   4.5
    2019-01-03   5.5
    2019-01-04   6.5

在您的解決方案中，聚合返回的是一列DataFrame ，因此鏈式rolling用於所有行，而不是按需要按組進行：

print(df.groupby(['ix1','ix2']).agg({'data':'mean'}))
                data
ix1 ix2             
0   2019-01-01     0
    2019-01-02     1
    2019-01-03     2
    2019-01-04     3
1   2019-01-01     4
    2019-01-02     5
    2019-01-03     6
    2019-01-04     7

基於多列分組的熊貓滾動平均值

問題描述

1 個解決方案

解決方案1
0 已采納 2019-06-11 08:29:48

基於多列分組的熊貓滾動平均值

問題描述

1 個解決方案

解決方案1 0 已采納 2019-06-11 08:29:48

解決方案1
0 已采納 2019-06-11 08:29:48