簡體   English   中英

基於多列分組的熊貓滾動平均值

[英]Pandas Rolling mean based on groupby multiple columns

我有一個長格式的數據框,在兩列中有重復的值,在另一列中有數據。 我想為每個組查找SMA。 我的問題是: rolling()只是忽略了數據按兩列分組的事實。

這是一些偽數據和代碼。

import numpy as np
import pandas as pd

dtix=pd.Series(pd.date_range(start='1/1/2019', periods=4) )
df=pd.DataFrame({'ix1':np.repeat([0,1],4), 'ix2':pd.concat([dtix,dtix]), 'data':np.arange(0,8) })
df
ix1 ix2 data
0   0   2019-01-01  0
1   0   2019-01-02  1
2   0   2019-01-03  2
3   0   2019-01-04  3
0   1   2019-01-01  4
1   1   2019-01-02  5
2   1   2019-01-03  6
3   1   2019-01-04  7

現在,當我對這些數據執行分組的滾動均值時,得到的輸出如下:

df.groupby(['ix1','ix2']).agg({'data':'mean'}).rolling(2).mean()
data
ix1 ix2 
0   2019-01-01  NaN
    2019-01-02  0.5
    2019-01-03  1.5
    2019-01-04  2.5
1   2019-01-01  3.5
    2019-01-02  4.5
    2019-01-03  5.5
    2019-01-04  6.5

所需的輸出:而我實際上想要的是:

sma
ix1 ix2 
0   2019-01-01  NaN
    2019-01-02  0.5
    2019-01-03  1.5
    2019-01-04  2.5
1   2019-01-01  NaN
    2019-01-02  4.5
    2019-01-03  5.5
    2019-01-04  6.5

感謝您的幫助。

使用另一個groupby由firast水平( ix1 )與rolling

df1 = (df.groupby(['ix1','ix2'])
         .agg({'data':'mean'})
         .groupby(level=0, group_keys=False)
         .rolling(2)
         .mean())
print (df1)
                data
ix1 ix2             
0   2019-01-01   NaN
    2019-01-02   0.5
    2019-01-03   1.5
    2019-01-04   2.5
1   2019-01-01   NaN
    2019-01-02   4.5
    2019-01-03   5.5
    2019-01-04   6.5

在您的解決方案中,聚合返回的是一列DataFrame ,因此鏈式rolling用於所有行,而不是按需要按組進行:

print(df.groupby(['ix1','ix2']).agg({'data':'mean'}))
                data
ix1 ix2             
0   2019-01-01     0
    2019-01-02     1
    2019-01-03     2
    2019-01-04     3
1   2019-01-01     4
    2019-01-02     5
    2019-01-03     6
    2019-01-04     7

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM