![](/img/trans.png)
[英]How to get mean of column of np.arrays every n rows, and then add mean to new column for each member of group
[英]Get mean of N rows with identifier column
我有一個 pandas dataframe 如下:
data = {'id': ['a1', 'a1', 'a1', 'a2', 'a2', 'a2', 'a2', 'a2', 'a3'], 'val1': [1, 2, 3, 4, 5, 6, 7, 8, 9], 'val2': [10, 20, 30, 40, 50, 60, 70, 80, 90]}
df = pd.DataFrame(data)
它具有以下表示:
id val1 val2
0 a1 1 10
1 a1 2 20
2 a1 3 30
3 a2 4 40
4 a2 5 50
5 a2 6 60
6 a2 7 70
7 a2 8 80
8 a3 9 90
我想按 id 對 dataframe 進行分組,並獲得按 N 行分組的 val1 和 val2 的平均值。
例如,如果N=2
,預期的 output 將是:
id val1 val2
0 a1 1.5 15
1 a1 3 30
2 a2 4.5 45
3 a2 6.5 65
4 a2 8 80
5 a3 9 90
因為它每 2 個元素計算每個 id 的平均值。
我的問題是:考慮到N
作為參數提供,最有效的方法是什么?
將GroupBy.cumcount
與 integer 划分用於組,然后聚合mean
:
N = 2
g = df.groupby('id').cumcount() // N
df = df.groupby(['id', g]).mean().droplevel(1).reset_index()
print (df)
id val1 val2
0 a1 1.5 15.0
1 a1 3.0 30.0
2 a2 4.5 45.0
3 a2 6.5 65.0
4 a2 8.0 80.0
5 a3 9.0 90.0
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.