繁体   English   中英

在唯一ID上连接两个数据框,但如果id不存在,则使用另一个值

[英]Joining two dataframes on unique ID, but using another value if id doesn't exist

我有两个这样的数据框:

UID    mainColumn .... (other columns of data)
1      apple
2      orange
3      apple
4      orange
5      berry
....

UID2   mainColumn2
1      truck
3      car
4      boat
5      plane
...

我需要将第二个数据框加入基于UID的数据框,但是,如果df2不包含uid,则maincolumn值就是我要使用的值。 在上面的示例中,UID2不包含值2,因此最终表看起来像

UID    mainColumn ....
1      truck
2      orange
3      car
4      boat
5      plane
...

现在我知道我们可以以

df1=df1.merge(df2,left_on='UID', right_on='UID2')

但我遇到的问题不是替换丢失的值,并确保仍将其包括在内。 谢谢!

在将df2的列重命名为df1之后,可以使用combine_first() (例如,将UID2更改为UID ..):

df2.columns=df1.columns#be careful, rename only matching columns
final_df=df2.set_index('UID').combine_first(df1.set_index('UID')).reset_index()

  UID mainColumn
0    1      truck
1    2     orange
2    3        car
3    4       boat
4    5      plane

我们可以先使用merge ,然后fillna缺失的值,最后drop多余的列:

final = df1.merge(df2, left_on='UID', right_on='UID2', how='left').drop('UID2', axis=1)

final['mainColumn'] = final['mainColumn2'].fillna(final['mainColumn'])

final.drop('mainColumn2', axis=1, inplace=True)

   UID mainColumn
0    1      truck
1    2     orange
2    3        car
3    4       boat
4    5      plane

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM