獲取具有標識符列的 N 行的平均值

Question

我有一個 pandas dataframe 如下：

data = {'id': ['a1', 'a1', 'a1', 'a2', 'a2', 'a2', 'a2', 'a2', 'a3'], 'val1': [1, 2, 3, 4, 5, 6, 7, 8, 9], 'val2': [10, 20, 30, 40, 50, 60, 70, 80, 90]}
df = pd.DataFrame(data)

它具有以下表示：

   id  val1  val2
0  a1     1    10
1  a1     2    20
2  a1     3    30
3  a2     4    40
4  a2     5    50
5  a2     6    60
6  a2     7    70
7  a2     8    80
8  a3     9    90

我想按 id 對 dataframe 進行分組，並獲得按 N 行分組的 val1 和 val2 的平均值。

例如，如果N=2 ，預期的 output 將是：

   id  val1  val2
0  a1   1.5    15
1  a1     3    30
2  a2   4.5    45
3  a2   6.5    65
4  a2     8    80
5  a3     9    90

因為它每 2 個元素計算每個 id 的平均值。

我的問題是：考慮到N作為參數提供，最有效的方法是什么？

Answer 1

將GroupBy.cumcount與 integer 划分用於組，然后聚合mean ：

N = 2
g = df.groupby('id').cumcount() // N
df = df.groupby(['id', g]).mean().droplevel(1).reset_index()
print (df)
   id  val1  val2
0  a1   1.5  15.0
1  a1   3.0  30.0
2  a2   4.5  45.0
3  a2   6.5  65.0
4  a2   8.0  80.0
5  a3   9.0  90.0

獲取具有標識符列的 N 行的平均值

問題描述

1 個解決方案

解決方案1
4 已采納 2022-03-16 13:33:37

獲取具有標識符列的 N 行的平均值

問題描述

1 個解決方案

解決方案1 4 已采納 2022-03-16 13:33:37

解決方案1
4 已采納 2022-03-16 13:33:37