对不同的列采取不同的功能

Question

我有以下数据集。

df = pd.DataFrame({'x': ['A','A','A','A','A','A','A','A','A','A',
                         'B','B','B','B','B','B','B','B','B','B'],
                   'ColA': [1,2,3,4,5,6,7,8,9,10,
                         1,2,3,4,5,6,7,8,9,10],
                   'ColB': np.random.randint(0,100,20),
                   'ColC': np.random.randint(0,100,20)})

我想通过列x总结列ColA 、 ColB 、 ColC 。 但是 ColA 的总结ColA是max并且ColB和ColC列是mean 。 预期的 output 如下：

summarization = df.groupby('x').agg({'ColA':'max', 'ColB':'mean', 'ColC':'mean'})
print(summarization)



ColA  ColB  ColC
x                  
A    10  52.5  54.9
B    10  64.1  51.0

这里的挑战是列名（ ColB和ColC是动态的）。 此外，我可以有 3 列或 1 列，而不是 2 列，我需要mean （或max ）。 因此，我需要将几列组合在一起以获取mean或max 。

理想的解决方案是如果我能做这样的事情：

df.groupby('x').agg({'ColA':'max', ['ColB','ColC']:'mean'})

但不幸的是agg function 没有这个功能。

有人可以告诉我如何在 pandas 中做到这一点吗？

谢谢！

Answer 1

使用agg ：

summarization = df.groupby('x').agg({'ColA':'max', 'ColB':'mean', 'ColC':'mean'})

Output：

>>> summarization
   ColA  ColB  ColC
x                  
A    10  57.2  54.8
B    10  44.1  52.2

>>> summarization.loc['A', 'ColB']
57.2

对不同的列采取不同的功能

问题描述

1 个解决方案

解决方案1
-1 2022-02-02 19:00:59

对不同的列采取不同的功能

问题描述

1 个解决方案

解决方案1 -1 2022-02-02 19:00:59

解决方案1
-1 2022-02-02 19:00:59