基于多个条件加入两个pandas数据帧

Question

df_a和df_b是两个看起来如下的数据帧

df_a
A   B       C      D     E
x1  Apple   0.3   0.9    0.6
x1  Orange  0.1   0.5    0.2
x2  Apple   0.2   0.2    0.1
x2  Orange  0.3   0.4    0.9
x2  Mango   0.1   0.2    0.3
x3  Orange  0.3   0.1    0.2


df_b
A   B_new   F    
x1  Apple   0.3  
x1  Mango   0.2  
x1  Orange  0.1   
x2  Apple   0.2   
x2  Orange  0.3     
x2  Mango   0.1  
x3  Orange  0.3  
x3  Mango   0.2  
x3  Apple   0.1

我希望我的final_df包含包含的所有行df_a使得它设想的独特组合df_a['A'] == df_b['A']和df_a['B'] == df_b['B_new'] 。

我已尝试进行外连接，然后在final_df删除重复的列A和B，但不保留final_df的值。

以下是我希望我的result_df看起来像：

result_df

 A   B       C      D     E   B_new  F
x1  Apple   0.3   0.9    0.6  Apple  0.3
x1  Orange  0.1   0.5    0.2  Orange 0.1
x2  Apple   0.2   0.2    0.1  Apple   0.2 
x2  Orange  0.3   0.4    0.9  Orange  0.3
x2  Mango   0.1   0.2    0.3  Mango   0.1
x3  Orange  0.3   0.1    0.2  Orange  0.3

我也试过左外连接：

final_df = pd.merge(df_a, df_b, how="left", on=['A'])

这个数据帧的大小是df_a和df_b的联合，这不是我想要的。

感谢任何建议。

Answer 1

您需要内部合并，在每种情况下指定两个合并列：

res = df_a.merge(df_b, how='inner', left_on=['A', 'B'], right_on=['A', 'B_new'])

print(res)

    A       B    C    D    E   B_new    F
0  x1   Apple  0.3  0.9  0.6   Apple  0.3
1  x1  Orange  0.1  0.5  0.2  Orange  0.1
2  x2   Apple  0.2  0.2  0.1   Apple  0.2
3  x2  Orange  0.3  0.4  0.9  Orange  0.3
4  x2   Mango  0.1  0.2  0.3   Mango  0.1
5  x3  Orange  0.3  0.1  0.2  Orange  0.3

基于多个条件加入两个pandas数据帧

问题描述

1 个解决方案

解决方案1
2 已采纳 2018-11-30 00:22:05

基于多个条件加入两个pandas数据帧

问题描述

1 个解决方案

解决方案1 2 已采纳 2018-11-30 00:22:05

解决方案1
2 已采纳 2018-11-30 00:22:05