如何使用 Pandas groupby 聚合、组合数据帧

Question

我有一个数据帧df和列df['table']使得在每个项目df['table']是与列的相同报头/数另一个数据帧。 我想知道是否有办法进行这样的groupby ：

原始数据框：

name    table
Bob     Pandas df1
Joe     Pandas df2
Bob     Pandas df3
Bob     Pandas df4
Emily   Pandas df5

分组后：

name    table
Bob     Pandas df containing the appended df1, df3, and df4
Joe     Pandas df2
Emily   Pandas df5

我发现这个代码片段可以对数据帧中的字符串执行groupby和 lambda，但一直无法弄清楚如何在groupby附加整个数据帧。

df['table'] = df.groupby(['name'])['table'].transform(lambda x : ' '.join(x))

我也试过df['table'] = df.groupby(['name'])['HTML'].apply(list) ，但这给了我所有NaN的df['table'] 。

谢谢你的帮助！！

Answer 1

给定 3 个数据帧

import pandas as pd

dfa = pd.DataFrame({'a': [1, 2, 3]})
dfb = pd.DataFrame({'a': ['a', 'b', 'c']})
dfc = pd.DataFrame({'a': ['pie', 'steak', 'milk']})

给定另一个数据框，列中有数据框

df = pd.DataFrame({'name': ['Bob', 'Joe', 'Bob', 'Bob', 'Emily'], 'table': [dfa, dfa, dfb, dfc, dfb]})

# print the type for the first value in the table column, to confirm it's a dataframe
print(type(df.loc[0, 'table']))
[out]:
<class 'pandas.core.frame.DataFrame'>

通过使用.groupby并为每组聚合一个list ，并将list的数据帧与pd.concat组合在一起，可以将每组数据帧组合成一个数据帧

# if there is only one column, or if there are multiple columns of dataframes to aggregate
dfg = df.groupby('name').agg(lambda x: pd.concat(list(x)).reset_index(drop=True))

# display(dfg.loc['Bob', 'table'])
       a
0      1
1      2
2      3
3      a
4      b
5      c
6    pie
7  steak
8   milk

# to specify a single column, or specify multiple columns, from many columns
dfg = df.groupby('name')[['table']].agg(lambda x: pd.concat(list(x)).reset_index(drop=True))

不是重复的

最初，我将这个问题标记为How to group dataframe rows into list in pandas groupby的副本，认为数据帧可以聚合到一个list ，然后与pd.concat结合。

df.groupby('name')['table'].apply(list)
df.groupby('name').agg(list)
df.groupby('name')['table'].agg(list)
df.groupby('name').agg({'table': list})
df.groupby('name').agg(lambda x: list(x))

但是，当有要聚合的dataframes时，这些都会导致StopIteration错误。

Answer 2

在这里，让我们创建一个以数据帧为列的数据帧：

首先，我从三个数据帧开始：

import pandas as pd

#creating dataframes that we will assign to Bob and Joe, notice b's and j':

df1 = pd.DataFrame({'var1':[12, 34, -4, None], 'letter':['b1', 'b2', 'b3', 'b4']})
df2 = pd.DataFrame({'var1':[1, 23, 44, 0], 'letter':['j1', 'j2', 'j3', 'j4']})
df3 = pd.DataFrame({'var1':[22, -3, 7, 78], 'letter':['b5', 'b6', 'b7', 'b8']})

#lets make a list of dictionaries:
list_of_dfs = [
    {'name':'Bob' ,'table':df1},
    {'name':'Joe' ,'table':df2},
    {'name':'Bob' ,'table':df3}
]

#constuct the main dataframe:
original_df = pd.DataFrame(list_of_dfs)
print(original_df)

original_df.shape #shows (3, 2)

现在我们将原始数据帧创建为输入，我们将生成结果新数据帧。 为此，我们使用 groupby()、agg() 和 pd.concat()。 我们还重置了索引。

new_df = original_df.groupby('name')['table'].agg(lambda series: pd.concat(series.tolist())).reset_index()
print(new_df)

#check that Bob's table is now a concatenated table of df1 and df3:
new_df[new_df['name']=='Bob']['table'][0]

最后一行代码的输出是：

    var1    letter
0   12.0    b1
1   34.0    b2
2   -4.0    b3
3    NaN    b4
0   22.0    b5
1   -3.0    b6
2    7.0    b7
3   78.0    b8

如何使用 Pandas groupby 聚合、组合数据帧

问题描述

2 个解决方案

解决方案1
1 已采纳 2020-10-07 22:11:08

不是重复的

解决方案2
1 2020-10-08 02:26:29

如何使用 Pandas groupby 聚合、组合数据帧

问题描述

2 个解决方案

解决方案1 1 已采纳 2020-10-07 22:11:08

不是重复的

解决方案2 1 2020-10-08 02:26:29

解决方案1
1 已采纳 2020-10-07 22:11:08

解决方案2
1 2020-10-08 02:26:29