如何在 Pandas 中對不同的數據框進行分組和聚合

Question

df1

A B
a 1
a 1
a 4
b 1 
b 3

df2

A B
a 1
a 2
c 3 
c 5

df1.groupby("A").size()

a 3
b 2

df2.groupby("A").size()

a 2
c 2

我想獲得以下size聚合

有沒有辦法實現這一目標？ 我想知道聚合方法。

如果有人有意見，請告訴我。 謝謝

Answer 1

您可以在兩個分組的數據幀上使用pd.concat並傳遞axis=1 （這pd.merge是pd.merge的outer連接，但語法更簡潔）。
然后，只需使用.fillna(0)進行一些清理，根據需要使用.rename()重命名列並使用.astype(int)使列數據類型為整數：

df3 = (pd.concat([df1.groupby("A").size(), df2.groupby("A").size()], axis=1)
      .fillna(0).rename({0 : 'df1', 1 : 'df2'}, axis=1).astype(int))
df3
Out[1]: 
   df1  df2
a    3    2
b    2    0
c    0    2

Answer 2

如果你在熊貓工作，我會做一個外連接。

data = [['a','a','a','b','b'],[1,1,4,1,3]]
df1 = pd.DataFrame(data).T
df1.columns = ['A','B']

data = [['a','a','c','c'],[1,2,3,5]]
df2 = pd.DataFrame(data).T
df2.columns = ['A','B']

temp1 = pd.DataFrame(df1.groupby("A").size())
temp2 = pd.DataFrame(df2.groupby("A").size())

df = temp1.merge(temp2,how='outer',left_index=True,right_index=True)
df.fillna(0)

輸出

0_x 0_y
A       
a   3.0 2.0
b   2.0 0.0
c   0.0 2.0

Answer 3

在concat中可以使用參數keys作為新列名，因為使用Series ，然后替換缺失值並轉換為整數：

df3 = (pd.concat([df1.groupby("A").size(), 
                  df2.groupby("A").size()], axis=1, keys=['df1','df2'])
         .fillna(0)
         .astype(int))
print (df3)
   df1  df2
a    3    2
b    2    0
c    0    2

另一個想法是首先使用concat ，通過DataFrame.reset_index將MultiIndex轉換為列，因此可能使用DataFrame.pivot_table ，最后使用DataFrame.rename_axis ：

df3 = (pd.concat([df1, df2], keys=['df1','df2'])
         .reset_index()
         .pivot_table(index='A', columns='level_0', aggfunc='size', fill_value=0)
         .rename_axis(columns=None, index=None)
       )
print (df3)
   df1  df2
a    3    2
b    2    0
c    0    2

Answer 4

您可以執行以下操作：

In [883]: df1 = df1.groupby("A").size().reset_index()

In [884]: df2 = df2.groupby("A").size().reset_index()

In [886]: df1.merge(df2, on='A', how='outer').fillna(0).rename(columns={'0_x': 'df1', '0_y':'df2'}).set_index('A')
Out[886]: 
   df1  df2
A          
a  3.0  2.0
b  2.0  0.0
c  0.0  2.0

Answer 5

 #groupby using agg to rename axis.
   g=df1.groupby("A", as_index=False)['B'].agg({'df1':'size'})
    h=df2.groupby("A", as_index=False)['B'].agg({'df2':'size'})

#concat the resultant datframe, fffiil, bfill and dro duplicates

(pd.concat([g,h], ignore_index=True).sort_values(by='A').ffill().bfill()).drop_duplicates()



  A  df1  df2
0  a  3.0  2.0
1  b  2.0  2.0
3  c  2.0  2.0

Answer 6

只是@David 答案的一個變體：

frames = {"df1": df1, "df2": df2}

pd.concat(
    {key: value.groupby("A").size() for key, value in frames.items()}, axis=1
).fillna(0)

如何在 Pandas 中對不同的數據框進行分組和聚合

問題描述

6 個解決方案

解決方案1
3 已采納 2020-09-28 04:21:26

解決方案2
1 2020-09-28 04:22:16

解決方案3
1 2020-09-28 05:10:45

解決方案4
0 2020-09-28 04:23:18

解決方案5
0 2020-09-28 04:30:07

解決方案6
0 2020-09-28 05:03:06

如何在 Pandas 中對不同的數據框進行分組和聚合

問題描述

6 個解決方案

解決方案1 3 已采納 2020-09-28 04:21:26

解決方案2 1 2020-09-28 04:22:16

解決方案3 1 2020-09-28 05:10:45

解決方案4 0 2020-09-28 04:23:18

解決方案5 0 2020-09-28 04:30:07

解決方案6 0 2020-09-28 05:03:06

解決方案1
3 已采納 2020-09-28 04:21:26

解決方案2
1 2020-09-28 04:22:16

解決方案3
1 2020-09-28 05:10:45

解決方案4
0 2020-09-28 04:23:18

解決方案5
0 2020-09-28 04:30:07

解決方案6
0 2020-09-28 05:03:06