熊貓掉落部分重復

Question

我有2個DFS：

df1：

    x  y  z
0   1  2  r
1   a  c  2
2  22  g  d

df2：

    x  y  z
0   1  2  r
1   a  b  2
2   3  g  d

當列y和z重復時，我想刪除。

所需結果：

        x  y  z
    1   a  c  2

因為df1和df2在y和z列中都具有相同的值

Answer 1

 cols=['y','z']#columns to check for having same value
 df1[~(df1[cols]==df2[cols]).all(axis=1)]#extracting the rows where x and y are `not equal(~)` in both dataframes

Answer 2

使用pd.merge你可以做

In [266]: dff = df1.merge(df2, on=['y', 'z'], how='left',  indicator=True,
                          suffixes=['', 'right'])

In [267]: dff.loc[dff['_merge'].eq('left_only'), ['x', 'y', 'z']]
Out[267]:
   x  y  z
1  a  c  2

Answer 3

一種解決方案可能是

df1[df1.merge(df2, 'left', ['y', 'z']).x_y.isnull()]

或者，有些低調，

df1[(df1[['y', 'z']] != df2[['y', 'z']]).any(1)]

Answer 4

實現它的另一種方法是使用loc

pd.DataFrame(df1.loc[(df1.y != df2.y) | (df1.z != df2.z)])

輸出量

    x  y  z
1   a  c  2

熊貓掉落部分重復

問題描述

4 個解決方案

解決方案1
2 2018-08-05 14:12:37

解決方案2
1 已采納 2018-08-05 13:02:41

解決方案3
1 2018-08-05 13:03:59

解決方案4
1 2018-08-05 13:27:26

熊貓掉落部分重復

問題描述

4 個解決方案

解決方案1 2 2018-08-05 14:12:37

解決方案2 1 已采納 2018-08-05 13:02:41

解決方案3 1 2018-08-05 13:03:59

解決方案4 1 2018-08-05 13:27:26

解決方案1
2 2018-08-05 14:12:37

解決方案2
1 已采納 2018-08-05 13:02:41

解決方案3
1 2018-08-05 13:03:59

解決方案4
1 2018-08-05 13:27:26