Python / Pandas：如何使用NaN合并不同行中的重复行？

Question

一定有更好的方法可以做到这一点，请帮助我

这是我必须清除的一些数据的摘录，其中包含几种“重复”行（并非所有行都是重复的）：

df =

LoanID | CustomerID | LoanStatus | CreditScore | AnnualIncome | ...
-------+------------+------------+-------------+--------------+-----
   100 | ABC        | Paid       |         NaN |        34200 |
   100 | ABC        | Paid       |         724 |        34200 |
   200 | DEF        | Write Off  |         611 |         9800 |
   200 | DEF        | Write Off  |         611 |          NaN |
   300 | GHI        | Paid       |         NaN |       247112 |
   300 | GHI        | Paid       |         799 |          NaN |
   400 | JKL        | Paid       |         NaN |          NaN |
   500 | MNO        | Paid       |         444 |          NaN |

因此，我有以下几种重复情况：

NaN和CreditScore列中的有效值（LoanID = 100）
NaN和AnnualIncome列中的有效值（LoanID = 200）
NaN和CreditScore列中的有效值，以及NaN和AnnualIncome列中的有效值（贷款ID = 300）
LoanID 400和500是“正常”情况

因此，显然我想要的是一个没有重复的数据框，例如：

LoanID | CustomerID | LoanStatus | CreditScore | AnnualIncome | ...
-------+------------+------------+-------------+--------------+-----
   100 | ABC        | Paid       |         724 |        34200 |
   200 | DEF        | Write Off  |         611 |         9800 |
   300 | GHI        | Paid       |         799 |       247112 |
   400 | JKL        | Paid       |         NaN |          NaN |
   500 | MNO        | Paid       |         444 |          NaN |

所以，我如何解决这个问题：

# Get the repeated keys:
rep = df['LoanID'].value_counts()
rep = rep[rep > 2]

# Now we get the valid number (we overwrite the NaNs)
for i in rep.keys():
    df.loc[df['LoanID'] == i, 'CreditScore']  = df[df['LoanID'] == i]['CreditScore'].max()
    df.loc[df['LoanID'] == i, 'AnnualIncome'] = df[df['LoanID'] == i]['AnnualIncome'].max()

# Drop duplicates   
df.drop_duplicates(inplace=True)

这行得通，正是我所需要的，问题是此数据帧是几个100k记录，因此此方法需要“永远”，必须有某种方法可以做得更好，对吧？

Answer 1

按贷款ID分组，在上方和下方填写缺失值并删除重复项似乎可行：

df.groupby('LoanID').apply(lambda x: \
                             fillna(method='ffill').\
                             fillna(method='bfill').\
                             drop_duplicates()).\
                     reset_index(drop=True).\
                     set_index('LoanID')
#       CustomerID LoanStatus  CreditScore  AnnualIncome  
#LoanID                                                             
#100           ABC       Paid        724.0       34200.0       
#200           DEF  Write Off        611.0        9800.0       
#300           GHI       Paid        799.0      247112.0       
#400           JKL       Paid          NaN           NaN       
#500           MNO       Paid        444.0           NaN

Python / Pandas：如何使用NaN合并不同行中的重复行？

问题描述

1 个解决方案

解决方案1
2 已采纳 2017-03-12 06:32:46

Python / Pandas：如何使用NaN合并不同行中的重复行？

问题描述

1 个解决方案

解决方案1 2 已采纳 2017-03-12 06:32:46

解决方案1
2 已采纳 2017-03-12 06:32:46