繁体   English   中英

基于 Python 中的另一个 dataframe 更新一个 dataframe

[英]Updating a dataframe based on another dataframe in Python

我有一个 DataFrame,比如说 df1,它的所有列都正确,除了“员工”列。 还有另一个 DataFrame,比如说 df2,它有正确的员工姓名,但存储在“员工”列中。 我正在尝试根据相应 DataFrame 中的 'key_df1' 和 'key_df2' 更新 df1。 需要一些帮助来解决这个问题。 (请看下图中预期的output)

data1=[['NYC-URBAN','JON','$5000','yes','BANKING','AC32456'],['WDC-RURAL','XING','$4500','Yes','FINANCE','AD45678'],['LONDON-URBAN','EDWARDS','$3500','No','IT','DE43216'],
     ['SINGAPORE-URBAN','WOLF','$5000','No','SPORTS','RT45327'],['MUMBAI-RURAL','NEMBIAR','$2500','No','IT','Rs454457']]

data2=[['NYC','MIKE','BANKING','BIKING','AH56245'],['WDC','ALPHA','FINANCE','TREKKING','AD45678'],
     ['LONDON-URBAN','BETA','FINANCE','SLEEPING','DE43216'],['SINGAPORE','WOLF','SPORTS','DANCING','RT45307'],
     ['MUMBAI','NEMBIAR','IT','ZUDO','RS454453']]

List1=['City','Employee', 'Income','Travelling','Industry', 'Key_df1']
List2=['City','Staff','Industry','Hobby', 'Key_df1']

df1=pd.DataFrame(data1,columns=List1)
df2=pd.DataFrame(data2,columns=List2)

预期输出:

在此处输入图像描述

编辑(附加查询):

感谢您的回复。 除了上述问题,我想将 'Employee' 列的值与 df1 中的 'Travelling' 列连接起来,仅用于 Key_df1 和 Key_df2 在两个 DataFrame 中关联的行。 请参阅下面的第二个预期 output。

在此处输入图像描述

首先将df1中的索引设置为Key_df1 ,并保存为临时DataFrame:

wrk = df1.set_index('Key_df1')

然后使用df2更新(就地)其Employee列,索引设置为Key_df2 ,仅采用Staff列:

wrk.Employee.update(df2.set_index('Key_df2').Staff)

最后一个操作是将索引更改为“常规”列并将其移动到上一个位置:

result = wrk.reset_index().reindex(columns=List1)

结果是:

              City Employee Income Travelling Industry   Key_df1
0        NYC-URBAN      JON  $5000        yes  BANKING   AC32456
1        WDC-RURAL    ALPHA  $4500        Yes  FINANCE   AD45678
2     LONDON-URBAN     BETA  $3500         No       IT   DE43216
3  SINGAPORE-URBAN     WOLF  $5000         No   SPORTS   RT45327
4     MUMBAI-RURAL  NEMBIAR  $2500         No       IT  Rs454457

按照关于旅行专栏的评论进行编辑

现在仅仅更新是不够的,任务必须以另一种方式解决。

从加入df1df2.Staff开始(使用set_index正确加入):

result = df1.join(df2.set_index('Key_df2').Staff, on='Key_df1')

第二步(实际更新)是:

result.Employee.where(result.Staff.isna(), result.Staff + '_' + result.Travelling,
    inplace=True)

最后一步是删除Staff列(不再需要):

result.drop(columns=['Staff'], inplace=True)

最终结果是:

              City   Employee Income Travelling Industry   Key_df1
0        NYC-URBAN        JON  $5000        yes  BANKING   AC32456
1        WDC-RURAL  ALPHA_Yes  $4500        Yes  FINANCE   AD45678
2     LONDON-URBAN    BETA_No  $3500         No       IT   DE43216
3  SINGAPORE-URBAN       WOLF  $5000         No   SPORTS   RT45327
4     MUMBAI-RURAL    NEMBIAR  $2500         No       IT  Rs454457

您可以使用 Boolean 索引,例如:

mask = df1.Key_df1 == df2.Key_df1.reindex(df1.index)
df1.loc[mask, 'Employee'] = df2.Staff

Output:

              City Employee Income Travelling Industry   Key_df1
0        NYC-URBAN      JON  $5000        yes  BANKING   AC32456
1        WDC-RURAL    ALPHA  $4500        Yes  FINANCE   AD45678
2     LONDON-URBAN     BETA  $3500         No       IT   DE43216
3  SINGAPORE-URBAN     WOLF  $5000         No   SPORTS   RT45327
4     MUMBAI-RURAL  NEMBIAR  $2500         No       IT  Rs454457

您还可以使用 numpy 其中:

import numpy as np

df1['Employee'] = np.where(df1['Key_df1'] == df2['Key_df1'], df2['Staff'], df1['Employee'])

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM