如何在两列之间删除重复项，但在各列中保留唯一值？

Question

我有一个看起来像这样的df；

col1     col2  
aa       aa
cc       bb
dd       dd

如何比较同一df中的两列，但删除重复项并在各自的列中保持唯一性？

新df：

col1     col2  
cc       bb

Answer 1

我们可以构造一个过滤器来检查df.col1的值是否不同于df.col2 ，然后进行过滤，例如：

df[df.col1 != df.col2]

例如：

>>> df = pd.DataFrame([['aa', 'aa'], ['cc', 'bb'], ['dd', 'dd']], columns=['col1', 'col2'])
>>> df
  col1 col2
0   aa   aa
1   cc   bb
2   dd   dd
>>> df[df.col1 != df.col2]
  col1 col2
1   cc   bb

我们在这里构造一个新的数据框，但是我们可以将df设置为新的数据框，例如：

df = df[df.col1 != df.col2]

Answer 2

这应该可以解决问题：

df[df[col1] != df[col2]]

Answer 3

如果只想提取各列中具有相同值的行，则应该这样做。

import pandas as pd

data = {'a':[40, 30, 10],
       'b':[40, 20, 10]}
df = pd.DataFrame(data)
df = df[~(df['a']==df['b'])]

输出量

如何在两列之间删除重复项，但在各列中保留唯一值？

问题描述

3 个解决方案

解决方案1
2 2018-10-26 23:08:37

解决方案2
2 已采纳 2018-10-26 23:10:04

解决方案3
0 2018-10-27 03:51:18

如何在两列之间删除重复项，但在各列中保留唯一值？

问题描述

3 个解决方案

解决方案1 2 2018-10-26 23:08:37

解决方案2 2 已采纳 2018-10-26 23:10:04

解决方案3 0 2018-10-27 03:51:18

解决方案1
2 2018-10-26 23:08:37

解决方案2
2 已采纳 2018-10-26 23:10:04

解决方案3
0 2018-10-27 03:51:18