Pandas：drop_duplicates（）基于python中的条件

Question

低于数据集：

data_input:

    A     B
1  C13D  C07H
2  C07H  C13D
3  B42C  B65H
4  B65H  B42C
5  A45B  A47C

即data_input中的第1行和第2行是相同的，我只想保留一个，所以删除第2行。

想要输出如下：

data_output:

    A     B
1  C13D  C07H
2  B42C  B65H
3  A45B  A47C

Answer 1

您可以根据'A'和'B'创建第三列'C' ，并使用它来查找重复项：

df['C'] = df['A'] + df['B']
df['C'] = df['C'].apply(lambda x: ''.join(sorted(x)))
df = df.drop_duplicates(subset='C')[['A', 'B']]

Answer 2

您可以使用duplicated和np.sort

In [1279]: df[~df.apply(np.sort, axis=1).duplicated()]
Out[1279]:
      A     B
1  C13D  C07H
3  B42C  B65H
5  A45B  A47C

细节

In [1281]: df.apply(np.sort, axis=1)
Out[1281]:
      A     B
1  C07H  C13D
2  C07H  C13D
3  B42C  B65H
4  B42C  B65H
5  A45B  A47C

In [1282]: df.apply(np.sort, axis=1).duplicated()
Out[1282]:
1    False
2     True
3    False
4     True
5    False
dtype: bool

Pandas：drop_duplicates（）基于python中的条件

问题描述

2 个解决方案

解决方案1
7 已采纳 2016-01-06 07:14:30

解决方案2
0 2017-10-12 15:53:14

Pandas：drop_duplicates（）基于python中的条件

问题描述

2 个解决方案

解决方案1 7 已采纳 2016-01-06 07:14:30

解决方案2 0 2017-10-12 15:53:14

解决方案1
7 已采纳 2016-01-06 07:14:30

解决方案2
0 2017-10-12 15:53:14