如何從數據框中刪除重復項？

Question

我目前的df看起來像這樣：

    IDnumber     Subid      Subsubid     Date        Originaldataindicator
      a            1          x           2006           NaN
      a            1          x           2007           NaN
      a            1          x           2008           NaN
      a            1          x           2008           1

原始數據是這樣一個事實的結果，即這些觀察中的一些是為每個ID編號獲得所有三年，而一些存在於原始數據集中。 我想要實現的是刪除重復項並保存原始數據。 請注意，originaldataindicator並不總是最后一次觀察。 為了解決這個問題，我首先對Idnumber Date Originaldataindicator進行排序

但是當我使用時：

  df=df.drop_duplicates(subset=['IDnumber', 'Subid', 'Subsubid', 'Date'])

什么都沒發生，我仍然觀察到重復。

  df=df.drop_duplicates(subset=['IDnumber', 'Subid', 'Subsubid', 'Date'], inplace=True)

給了我一個空數據框。

我誤解了drop_duplicates的作用嗎？

為了避免混淆，這就是我想要的：

    IDnumber     Subid      Subsubid     Date        Originaldataindicator
      a            1          x           2006           NaN
      a            1          x           2007           NaN
      a            1          x           2008           1

數據包括數千個這樣的ID

Answer 1

我認為你需要groupby和sort_values然后使用參數keep=first of drop_duplicates ：

print df
  IDnumber  Subid Subsubid  Date  Originaldataindicator
0        a      1        x  2006                    NaN
1        a      1        x  2007                    NaN
2        a      1        x  2008                    NaN
3        a      1        x  2008                      1
4        a      1        x  2008                    NaN

df = df.groupby(['IDnumber', 'Subid', 'Subsubid', 'Date'])
              .apply(lambda x: x.sort_values('Originaldataindicator')).reset_index(drop=True)
print df
  IDnumber  Subid Subsubid  Date  Originaldataindicator
0        a      1        x  2006                    NaN
1        a      1        x  2007                    NaN
2        a      1        x  2008                      1
3        a      1        x  2008                    NaN
4        a      1        x  2008                    NaN

df1=df.drop_duplicates(subset=['IDnumber', 'Subid', 'Subsubid', 'Date'], keep='first')
print df1
  IDnumber  Subid Subsubid  Date  Originaldataindicator
0        a      1        x  2006                    NaN
1        a      1        x  2007                    NaN
2        a      1        x  2008                      1

或使用inplace ：

df.drop_duplicates(subset=['IDnumber','Subid','Subsubid','Date'], keep='first', inplace=True)
print df
  IDnumber  Subid Subsubid  Date  Originaldataindicator
0        a      1        x  2006                    NaN
1        a      1        x  2007                    NaN
2        a      1        x  2008                      1

如果列Originaldataindicator有多個值使用duplicated （也許可以添加所有列IDnumber ， Subid ， Subsubid ， Date ）並且isnull ：

print df
  IDnumber  Subid Subsubid  Date  Originaldataindicator
0        a      1        x  2006                    NaN
1        a      1        x  2007                    NaN
2        a      1        x  2008                    NaN
3        a      1        x  2008                      1
4        a      1        x  2008                      1

print df[~((df.duplicated('Date',keep=False))&~(pd.notnull(df['Originaldataindicator'])))]
  IDnumber  Subid Subsubid  Date  Originaldataindicator
0        a      1        x  2006                    NaN
1        a      1        x  2007                    NaN
3        a      1        x  2008                      1
4        a      1        x  2008                      1

解釋條件：

print df.duplicated('Date', keep=False)
0    False
1    False
2     True
3     True
4     True
dtype: bool

print (pd.isnull(df['Originaldataindicator']))
0     True
1     True
2     True
3    False
4    False
Name: Originaldataindicator, dtype: bool

print ~((df.duplicated('Date', keep=False)) & (pd.isnull(df['Originaldataindicator'])))
0     True
1     True
2    False
3     True
4     True
dtype: bool

Answer 2

考慮一下：

df = pd.DataFrame({'a': [1, 2, 3, 3, 3], 'b': [1, 2, None, 1, None]})

然后

>>> df.sort_values(by=['a', 'b']).groupby(df.a).first()[['b']].reset_index()
    a   b
0   1   1
1   2   2
2   3   1

首先按a ，然后按b （因此最后按每個組中的None值）對項目進行排序，然后選擇每個組的第一個項目。

我相信您可以根據問題的具體情況對其進行修改。

如何從數據框中刪除重復項？

問題描述

2 個解決方案

解決方案1
4 已采納 2016-02-16 13:08:14

解決方案2
3 2016-02-16 13:29:27

如何從數據框中刪除重復項？

問題描述

2 個解決方案

解決方案1 4 已采納 2016-02-16 13:08:14

解決方案2 3 2016-02-16 13:29:27

解決方案1
4 已采納 2016-02-16 13:08:14

解決方案2
3 2016-02-16 13:29:27