如何从pandas groupby中的多列中获取唯一值

Question

从这个数据帧 df 开始：

df = pd.DataFrame({'c':[1,1,1,2,2,2],'l1':['a','a','b','c','c','b'],'l2':['b','d','d','f','e','f']})

   c l1 l2
0  1  a  b
1  1  a  d
2  1  b  d
3  2  c  f
4  2  c  e
5  2  b  f

我想对c列执行 groupby 以获取l1和l2列的唯一值。 对于一列，我可以这样做：

g = df.groupby('c')['l1'].unique()

正确返回：

c
1    [a, b]
2    [c, b]
Name: l1, dtype: object

但使用：

g = df.groupby('c')['l1','l2'].unique()

返回：

AttributeError: 'DataFrameGroupBy' object has no attribute 'unique'

我知道我可以获得两列的唯一值（除其他外）：

In [12]: np.unique(df[['l1','l2']])
Out[12]: array(['a', 'b', 'c', 'd', 'e', 'f'], dtype=object)

有没有办法将此方法应用于 groupby 以获得类似的东西：

c
1    [a, b, d]
2    [c, b, e, f]
Name: l1, dtype: object

Answer 1

你可以用apply做到：

import numpy as np
g = df.groupby('c')['l1','l2'].apply(lambda x: list(np.unique(x)))

Answer 2

或者，您可以使用agg ：

g = df.groupby('c')['l1','l2'].agg(['unique'])

Answer 3

另一种选择是将GroupBy.agg与set一起使用

df.groupby('c').agg(set)

       l1      l2
c                
1  {a, b}  {d, b}
2  {c, b}  {e, f}

如何从pandas groupby中的多列中获取唯一值

问题描述

3 个解决方案

解决方案1
39 已采纳 2016-03-19 20:07:04

解决方案2
29 2020-01-23 22:30:44

解决方案3
2 2021-02-27 16:25:53

如何从pandas groupby中的多列中获取唯一值

问题描述

3 个解决方案

解决方案1 39 已采纳 2016-03-19 20:07:04

解决方案2 29 2020-01-23 22:30:44

解决方案3 2 2021-02-27 16:25:53

解决方案1
39 已采纳 2016-03-19 20:07:04

解决方案2
29 2020-01-23 22:30:44

解决方案3
2 2021-02-27 16:25:53