如何使用 Pandas groupby 聚合、組合數據幀

Question

我有一個數據幀df和列df['table']使得在每個項目df['table']是與列的相同報頭/數另一個數據幀。 我想知道是否有辦法進行這樣的groupby ：

原始數據框：

name    table
Bob     Pandas df1
Joe     Pandas df2
Bob     Pandas df3
Bob     Pandas df4
Emily   Pandas df5

分組后：

name    table
Bob     Pandas df containing the appended df1, df3, and df4
Joe     Pandas df2
Emily   Pandas df5

我發現這個代碼片段可以對數據幀中的字符串執行groupby和 lambda，但一直無法弄清楚如何在groupby附加整個數據幀。

df['table'] = df.groupby(['name'])['table'].transform(lambda x : ' '.join(x))

我也試過df['table'] = df.groupby(['name'])['HTML'].apply(list) ，但這給了我所有NaN的df['table'] 。

謝謝你的幫助！！

Answer 1

給定 3 個數據幀

import pandas as pd

dfa = pd.DataFrame({'a': [1, 2, 3]})
dfb = pd.DataFrame({'a': ['a', 'b', 'c']})
dfc = pd.DataFrame({'a': ['pie', 'steak', 'milk']})

給定另一個數據框，列中有數據框

df = pd.DataFrame({'name': ['Bob', 'Joe', 'Bob', 'Bob', 'Emily'], 'table': [dfa, dfa, dfb, dfc, dfb]})

# print the type for the first value in the table column, to confirm it's a dataframe
print(type(df.loc[0, 'table']))
[out]:
<class 'pandas.core.frame.DataFrame'>

通過使用.groupby並為每組聚合一個list ，並將list的數據幀與pd.concat組合在一起，可以將每組數據幀組合成一個數據幀

# if there is only one column, or if there are multiple columns of dataframes to aggregate
dfg = df.groupby('name').agg(lambda x: pd.concat(list(x)).reset_index(drop=True))

# display(dfg.loc['Bob', 'table'])
       a
0      1
1      2
2      3
3      a
4      b
5      c
6    pie
7  steak
8   milk

# to specify a single column, or specify multiple columns, from many columns
dfg = df.groupby('name')[['table']].agg(lambda x: pd.concat(list(x)).reset_index(drop=True))

不是重復的

最初，我將這個問題標記為How to group dataframe rows into list in pandas groupby的副本，認為數據幀可以聚合到一個list ，然后與pd.concat結合。

df.groupby('name')['table'].apply(list)
df.groupby('name').agg(list)
df.groupby('name')['table'].agg(list)
df.groupby('name').agg({'table': list})
df.groupby('name').agg(lambda x: list(x))

但是，當有要聚合的dataframes時，這些都會導致StopIteration錯誤。

Answer 2

在這里，讓我們創建一個以數據幀為列的數據幀：

首先，我從三個數據幀開始：

import pandas as pd

#creating dataframes that we will assign to Bob and Joe, notice b's and j':

df1 = pd.DataFrame({'var1':[12, 34, -4, None], 'letter':['b1', 'b2', 'b3', 'b4']})
df2 = pd.DataFrame({'var1':[1, 23, 44, 0], 'letter':['j1', 'j2', 'j3', 'j4']})
df3 = pd.DataFrame({'var1':[22, -3, 7, 78], 'letter':['b5', 'b6', 'b7', 'b8']})

#lets make a list of dictionaries:
list_of_dfs = [
    {'name':'Bob' ,'table':df1},
    {'name':'Joe' ,'table':df2},
    {'name':'Bob' ,'table':df3}
]

#constuct the main dataframe:
original_df = pd.DataFrame(list_of_dfs)
print(original_df)

original_df.shape #shows (3, 2)

現在我們將原始數據幀創建為輸入，我們將生成結果新數據幀。 為此，我們使用 groupby()、agg() 和 pd.concat()。 我們還重置了索引。

new_df = original_df.groupby('name')['table'].agg(lambda series: pd.concat(series.tolist())).reset_index()
print(new_df)

#check that Bob's table is now a concatenated table of df1 and df3:
new_df[new_df['name']=='Bob']['table'][0]

最后一行代碼的輸出是：

    var1    letter
0   12.0    b1
1   34.0    b2
2   -4.0    b3
3    NaN    b4
0   22.0    b5
1   -3.0    b6
2    7.0    b7
3   78.0    b8

如何使用 Pandas groupby 聚合、組合數據幀

問題描述

2 個解決方案

解決方案1
1 已采納 2020-10-07 22:11:08

不是重復的

解決方案2
1 2020-10-08 02:26:29

如何使用 Pandas groupby 聚合、組合數據幀

問題描述

2 個解決方案

解決方案1 1 已采納 2020-10-07 22:11:08

不是重復的

解決方案2 1 2020-10-08 02:26:29

解決方案1
1 已采納 2020-10-07 22:11:08

解決方案2
1 2020-10-08 02:26:29