[英]Pandas groupby multiple fields then diff
所以我的 dataframe 看起來像這樣:
date site country score
0 2018-01-01 google us 100
1 2018-01-01 google ch 50
2 2018-01-02 google us 70
3 2018-01-03 google us 60
4 2018-01-02 google ch 10
5 2018-01-01 fb us 50
6 2018-01-02 fb us 55
7 2018-01-03 fb us 100
8 2018-01-01 fb es 100
9 2018-01-02 fb gb 100
每個site
都有不同的分數,具體取決於country
。 我正在嘗試為每個site
/ country
/地區組合找到score
的 1/3/5 天差異。
Output 應該是:
date site country score diff
8 2018-01-01 fb es 100 0.0
9 2018-01-02 fb gb 100 0.0
5 2018-01-01 fb us 50 0.0
6 2018-01-02 fb us 55 5.0
7 2018-01-03 fb us 100 45.0
1 2018-01-01 google ch 50 0.0
4 2018-01-02 google ch 10 -40.0
0 2018-01-01 google us 100 0.0
2 2018-01-02 google us 70 -30.0
3 2018-01-03 google us 60 -10.0
我首先嘗試按site
/ country
/地區/ date
進行排序,然后按site
和country
/地區分組,但我無法理解與分組的 object 的區別。
首先,對 DataFrame 進行排序,然后您只需要groupby.diff()
:
df = df.sort_values(by=['site', 'country', 'date'])
df['diff'] = df.groupby(['site', 'country'])['score'].diff().fillna(0)
df
Out:
date site country score diff
8 2018-01-01 fb es 100 0.0
9 2018-01-02 fb gb 100 0.0
5 2018-01-01 fb us 50 0.0
6 2018-01-02 fb us 55 5.0
7 2018-01-03 fb us 100 45.0
1 2018-01-01 google ch 50 0.0
4 2018-01-02 google ch 10 -40.0
0 2018-01-01 google us 100 0.0
2 2018-01-02 google us 70 -30.0
3 2018-01-03 google us 60 -10.0
sort_values
不支持任意排序。 如果您需要任意排序(例如在 fb 之前使用 google),您需要將它們存儲在一個集合中並將您的列設置為分類。 然后 sort_values 將尊重您在那里提供的排序。
您可以移動和減去分組值:
df.sort_values(['site', 'country', 'date'], inplace=True)
df['diff'] = df['score'] - df.groupby(['site', 'country'])['score'].shift()
結果:
date site country score diff
8 2018-01-01 fb es 100 NaN
9 2018-01-02 fb gb 100 NaN
5 2018-01-01 fb us 50 NaN
6 2018-01-02 fb us 55 5.0
7 2018-01-03 fb us 100 45.0
1 2018-01-01 google ch 50 NaN
4 2018-01-02 google ch 10 -40.0
0 2018-01-01 google us 100 NaN
2 2018-01-02 google us 70 -30.0
3 2018-01-03 google us 60 -10.0
要用0
填充NaN
使用df['diff'].fillna(0, inplace=True)
。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.