想要使用groupby和transform創建包含唯一值列表的列

Question

這是一個樣本數據集

test = pd.DataFrame({
    'a' : [1, 2, 3]*2,
    'b' : ['a', 'a', 'b', 'b', 'b', 'b',],
    'c' : [123, 456, 456, 123, 456, 123]
})

print(test)

   a  b    c
0  1  a  123
1  2  a  456
2  3  b  456
3  1  b  123
4  2  b  456
5  3  b  123

如果我groupby列'a'和'b' ，然后嘗試獲得唯一值（名單'c' ）各組，預期結果使用我沒有得到transform

# using transform
print(test.groupby([
    'a',
    'b',
]).c.transform(pd.Series.unique))

0    123
1    456
2    456
3    123
4    456
5    123

如果我改用unique ，我幾乎可以得到預期的輸出：

# almost expected output
print(test.groupby([
    'a',
    'b',
]).c.unique())

a  b
1  a         [123]
   b         [123]
2  a         [456]
   b         [456]
3  b    [456, 123]
Name: c, dtype: object

我所希望的是使用transform看起來像這樣的pd.Series ：

預期產量

0         [123]
1         [456]
2    [456, 123]
3         [123]
4         [456]
5    [456, 123]
dtype: object

我知道我可以使用transform來獲得'c'的nunique值，作為一系列這樣做：

print(test.groupby([
    'a',
    'b',
]).c.transform(pd.Series.nunique))

0    1
1    1
2    2
3    1
4    1
5    2
Name: c, dtype: int64

題

為什么我不能對unique和transform做類似的事情？

邊注

我知道我可以進行groupby和unique ，然后進行reset_index並與原始數據merge ，但是我希望有一個對pythonic / pandas更友好的方法。

我也嘗試使用set和transform ，但是返回了錯誤。

print(test.groupby([
    'a',
    'b',
]).c.transform(set))

TypeError: 'set' type is unordered

Answer 1

是否

test.groupby(['a','b'])['c'].transform('unique')

為你工作？

輸出：

0         [123]
1         [456]
2    [456, 123]
3         [123]
4         [456]
5    [456, 123]
Name: c, dtype: object

想要使用groupby和transform創建包含唯一值列表的列

問題描述

預期產量

題

邊注

1 個解決方案

解決方案1
3 已采納 2019-09-10 20:26:43

想要使用groupby和transform創建包含唯一值列表的列

問題描述

預期產量

題

邊注

1 個解決方案

解決方案1 3 已采納 2019-09-10 20:26:43

解決方案1
3 已采納 2019-09-10 20:26:43