[英]Pandas Rolling mean based on groupby multiple columns
我有一個長格式的數據框,在兩列中有重復的值,在另一列中有數據。 我想為每個組查找SMA。 我的問題是: rolling()
只是忽略了數據按兩列分組的事實。
這是一些偽數據和代碼。
import numpy as np
import pandas as pd
dtix=pd.Series(pd.date_range(start='1/1/2019', periods=4) )
df=pd.DataFrame({'ix1':np.repeat([0,1],4), 'ix2':pd.concat([dtix,dtix]), 'data':np.arange(0,8) })
df
ix1 ix2 data 0 0 2019-01-01 0 1 0 2019-01-02 1 2 0 2019-01-03 2 3 0 2019-01-04 3 0 1 2019-01-01 4 1 1 2019-01-02 5 2 1 2019-01-03 6 3 1 2019-01-04 7
現在,當我對這些數據執行分組的滾動均值時,得到的輸出如下:
df.groupby(['ix1','ix2']).agg({'data':'mean'}).rolling(2).mean()
data ix1 ix2 0 2019-01-01 NaN 2019-01-02 0.5 2019-01-03 1.5 2019-01-04 2.5 1 2019-01-01 3.5 2019-01-02 4.5 2019-01-03 5.5 2019-01-04 6.5
所需的輸出:而我實際上想要的是:
sma ix1 ix2 0 2019-01-01 NaN 2019-01-02 0.5 2019-01-03 1.5 2019-01-04 2.5 1 2019-01-01 NaN 2019-01-02 4.5 2019-01-03 5.5 2019-01-04 6.5
感謝您的幫助。
使用另一個groupby
由firast水平( ix1
)與rolling
:
df1 = (df.groupby(['ix1','ix2'])
.agg({'data':'mean'})
.groupby(level=0, group_keys=False)
.rolling(2)
.mean())
print (df1)
data
ix1 ix2
0 2019-01-01 NaN
2019-01-02 0.5
2019-01-03 1.5
2019-01-04 2.5
1 2019-01-01 NaN
2019-01-02 4.5
2019-01-03 5.5
2019-01-04 6.5
在您的解決方案中,聚合返回的是一列DataFrame
,因此鏈式rolling
用於所有行,而不是按需要按組進行:
print(df.groupby(['ix1','ix2']).agg({'data':'mean'}))
data
ix1 ix2
0 2019-01-01 0
2019-01-02 1
2019-01-03 2
2019-01-04 3
1 2019-01-01 4
2019-01-02 5
2019-01-03 6
2019-01-04 7
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.