Pandas DataFrame 按多個列上的連續相同值分組

Question

我需要為列列表重新組合具有相同值的連續行。 多虧了這一點，我找到了如何為一個專欄做這件事，但我不能讓它為多個專欄工作。

我的問題與這個問題非常接近，但我也無法按照我的意願讓它發揮作用。

這是一個工作片段，我需要列user ， group ， value1和value2相同以重新組合行：

#! /bin/python3

import pandas as pd

data = [{"user":"paul","group":"accounting","value1":"foo","value2":3,"value3":"random123"},{"user":"paul","group":"accounting","value1":"foo","value2":3,"value3":"random456"},{"user":"paul","group":"accounting","value1":"foo","value2":3,"value3":"random789"},{"user":"paul","group":"accounting","value1":"foo","value2":5,"value3":"random789"},{"user":"paul","group":"accounting","value1":"foo","value2":5,"value3":"random789"},{"user":"paul","group":"accounting","value1":"foo","value2":5,"value3":"random158"},{"user":"jack","group":"administration","value1":"foo","value2":5,"value3":"random487"},{"user":"jack","group":"administration","value1":"foo","value2":5,"value3":"random435"},{"user":"jack","group":"administration","value1":"bar","value2":3,"value3":"random483"},{"user":"jack","group":"administration","value1":"foo","value2":3,"value3":"random431"},{"user":"jack","group":"administration","value1":"foo","value2":3,"value3":"random478"},{"user":"paul","group":"accounting","value1":"foo","value2":5,"value3":"random759"},{"user":"jack","group":"administration","value1":"bar","value2":3,"value3":"random431"},{"user":"jack","group":"administration","value1":"foo","value2":3,"value3":"random478"}]

df = pd.DataFrame(data)
print(df)
print("----")
grouped = df.groupby(((df['value2'].shift() != df['value2'])).cumsum())
for k, v in grouped:
    print(f'[group {k}]')
    print(v)

它輸出這個：

[group 1]
   user       group value1  value2     value3
0  paul  accounting    foo       3  random123
1  paul  accounting    foo       3  random456
2  paul  accounting    foo       3  random789
[group 2]
   user           group value1  value2     value3
3  paul      accounting    foo       5  random789
4  paul      accounting    foo       5  random789
5  paul      accounting    foo       5  random158
6  jack  administration    foo       5  random487
7  jack  administration    foo       5  random435
[group 3]
    user           group value1  value2     value3
8   jack  administration    bar       3  random483
9   jack  administration    foo       3  random431
10  jack  administration    foo       3  random478
[group 4]
    user       group value1  value2     value3
11  paul  accounting    foo       5  random759
[group 5]
    user           group value1  value2     value3
12  jack  administration    bar       3  random431
13  jack  administration    foo       3  random478

但我需要這個：

[group 1]
   user       group value1  value2     value3
0  paul  accounting    foo       3  random123
1  paul  accounting    foo       3  random456
2  paul  accounting    foo       3  random789
[group 2]
   user           group value1  value2     value3
3  paul      accounting    foo       5  random789
4  paul      accounting    foo       5  random789
5  paul      accounting    foo       5  random158
[group 3]
    user           group value1  value2     value3
6  jack  administration    foo       5  random487
7  jack  administration    foo       5  random435
[group 4]
    user           group value1  value2     value3
8   jack  administration    bar       3  random483
[group 5]
    user           group value1  value2     value3
9   jack  administration    foo       3  random431
10  jack  administration    foo       3  random478
[group 6]
    user       group value1  value2     value3
11  paul  accounting    foo       5  random759
[group 7]
    user           group value1  value2     value3
12  jack  administration    bar       3  random431
[group 8]
    user           group value1  value2     value3
13  jack  administration    foo       3  random478

我在 groupby 中嘗試了多個列，但無濟於事：

grouped = df.groupby(((df[['user', 'value2']].shift() != df[['user', 'value2']])).cumsum())

#returns
ValueError: Grouper for '<class 'pandas.core.frame.DataFrame'>' not 1-dimensional

Answer 1

通過將列表中的列與DataFrame.any進行比較來創建連續的組，然后添加累計和：

cols = ['user','group','value1','value2']

grouped = df.groupby(((df[cols].shift() != df[cols]).any(axis=1)).cumsum())
for k, v in grouped:
    print(f'[group {k}]')
    print(v)

[group 1]
   user       group value1  value2     value3
0  paul  accounting    foo       3  random123
1  paul  accounting    foo       3  random456
2  paul  accounting    foo       3  random789
[group 2]
   user       group value1  value2     value3
3  paul  accounting    foo       5  random789
4  paul  accounting    foo       5  random789
5  paul  accounting    foo       5  random158
[group 3]
   user           group value1  value2     value3
6  jack  administration    foo       5  random487
7  jack  administration    foo       5  random435
[group 4]
   user           group value1  value2     value3
8  jack  administration    bar       3  random483
[group 5]
    user           group value1  value2     value3
9   jack  administration    foo       3  random431
10  jack  administration    foo       3  random478
[group 6]
    user       group value1  value2     value3
11  paul  accounting    foo       5  random759
[group 7]
    user           group value1  value2     value3
12  jack  administration    bar       3  random431
[group 8]
    user           group value1  value2     value3
13  jack  administration    foo       3  random478

Pandas DataFrame 按多個列上的連續相同值分組

問題描述

1 個解決方案

解決方案1
1 已采納 2022-04-13 09:30:25

Pandas DataFrame 按多個列上的連續相同值分組

問題描述

1 個解決方案

解決方案1 1 已采納 2022-04-13 09:30:25

解決方案1
1 已采納 2022-04-13 09:30:25