在熊貓中刪除具有重復列的選定行

Question

假設我有一個像這樣的數據框：

fname    lname     email

Joe      Aaron   
Joe      Aaron     some@some.com
Bill     Smith 
Bill     Smith
Bill     Smith     some2@some.com

有沒有簡潔方便的方法來刪除{fname，lname}重復且電子郵件為空白的行？

Answer 1

您應該首先檢查您的“空”數據是NaN還是空字符串。 如果它們是混合的，則可能需要修改以下邏輯。

如果空行是NaN

使用pd.DataFrame.sort_values和pd.DataFrame.drop_duplicates ：

df = df.sort_values('email')\
       .drop_duplicates(['fname', 'lname'])

如果空行是字符串

如果空行是字符串，則在排序時需要指定ascending=False ：

df = df.sort_values('email', ascending=False)\
       .drop_duplicates(['fname', 'lname'])

結果

print(df)

  fname  lname           email
4  Bill  Smith  some2@some.com
1   Joe  Aaron   some@some.com

Answer 2

您可以將first與groupby一起使用（注意，請用np.nan替換為空，因為first將返回每列的第一個非null值）

df.replace('',np.nan).groupby(['fname','lname']).first().reset_index()
Out[20]: 
  fname  lname           email
0  Bill  Smith  some2@some.com
1   Joe  Aaron   some@some.com

在熊貓中刪除具有重復列的選定行

問題描述

2 個解決方案

解決方案1
1 已采納 2018-06-14 00:11:00

如果空行是NaN

如果空行是字符串

結果

解決方案2
0 2018-06-14 01:30:34

在熊貓中刪除具有重復列的選定行

問題描述

2 個解決方案

解決方案1 1 已采納 2018-06-14 00:11:00

如果空行是NaN

如果空行是字符串

結果

解決方案2 0 2018-06-14 01:30:34

解決方案1
1 已采納 2018-06-14 00:11:00

解決方案2
0 2018-06-14 01:30:34