Python-刪除基於兩個列組合的數據框中的重復項？

Question

我在Python中有一個包含3列的數據框：

Name1 Name2 Value
Juan  Ale   1
Ale   Juan  1

並希望消除基於Name1和Name2列組合的重復項。

在我的示例中，兩行相等（但是順序不同），我想刪除第二行並保留第一行，因此最終結果應為：

Name1 Name2 Value
Juan  Ale   1

任何想法將不勝感激！

Answer 1

通過使用np.sort與duplicated

df[pd.DataFrame(np.sort(df[['Name1','Name2']].values,1)).duplicated()]
Out[614]: 
  Name1 Name2  Value
1   Ale  Juan      1

性能

df=pd.concat([df]*100000)

%timeit df[pd.DataFrame(np.sort(df[['Name1','Name2']].values,1)).duplicated()]
10 loops, best of 3: 69.3 ms per loop
%timeit df[~df[['Name1', 'Name2']].apply(frozenset, axis=1).duplicated()]
1 loop, best of 3: 3.72 s per loop

Answer 2

您可以轉換為frozenset並使用pd.DataFrame.duplicated 。

res = df[~df[['Name1', 'Name2']].apply(frozenset, axis=1).duplicated()]

print(res)

  Name1 Name2  Value
0  Juan   Ale      1

因為duplicated使用散列來檢查重復項，所以無需使用frozenset而不是set 。

列比行更好地縮放。 對於大量行，請使用@Wen的基於排序的算法。

Answer 3

這個問題我很晚才知道，但無論如何都要給我的貢獻:)

您還可以使用get_dummies並add一個創建可哈希行的好方法

df[~(pd.get_dummies(df.a).add(pd.get_dummies(df.b), fill_value=0)).duplicated()]

時間不如frozen_set的答案，但是它仍然比apply + frozen_set更快

df=pd.concat([df]*1000000)
%timeit df[~(pd.get_dummies(df.a).add(pd.get_dummies(df.b), fill_value=0)).duplicated()]
1.8 s ± 85 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df[pd.DataFrame(np.sort(df[['a','b']].values,1)).duplicated()]
1.26 s ± 19 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df[~df[['a', 'b']].apply(frozenset, axis=1).duplicated()]
1min 9s ± 684 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Python-刪除基於兩個列組合的數據框中的重復項？

問題描述

3 個解決方案

解決方案1
21 2018-07-05 01:49:22

解決方案2
18 已采納 2018-07-05 01:16:06

解決方案3
5 2018-07-05 03:25:08

Python-刪除基於兩個列組合的數據框中的重復項？

問題描述

3 個解決方案

解決方案1 21 2018-07-05 01:49:22

解決方案2 18 已采納 2018-07-05 01:16:06

解決方案3 5 2018-07-05 03:25:08

解決方案1
21 2018-07-05 01:49:22

解決方案2
18 已采納 2018-07-05 01:16:06

解決方案3
5 2018-07-05 03:25:08