刪除pandas數據幀中的重復項后，替換特定的列值

Question

我是熊貓的初學者（如果我使用錯誤的術語，我道歉），我目前正致力於基因組學項目。 使用drop_duplicates（）后，我無法操作dataframes列。 我想更改刪除重復項后保留的id的列'mutation'中的列值，以指示此id有多個突變。

我的代碼：

df = pd.DataFrame([
('MYC', 'nonsense', 's1'),
('MYC', 'missense', 's1'),
('MYCL', 'nonsense', 's1'),
('MYCL', 'missense', 's2'),
('MYCN', 'missense', 's3'),
('MYCN', 'UTR', 's1'),
('MYCN', 'nonsense', 's1')
], columns=['id', 'mutation', 'sample'])

print(df)

結果：

     id  mutation sample
0   MYC  nonsense     s1
1   MYC  nonsense     s1
2   MYC  missense     s1
3  MYCL  nonsense     s1
4  MYCL  missense     s2
5  MYCN  missense     s3
6  MYCN       UTR     s1
7  MYCN  nonsense     s1

我嘗試使用drop_duplicates（），我正在接近我想要的。 但是，如何將“變異”列中的值更改為“多個”？

 print(df.drop_duplicates(subset=('sample','id')))
     id  mutation sample
0   MYC  nonsense     s1
3  MYCL  nonsense     s1
4  MYCL  missense     s2
5  MYCN  missense     s3
6  MYCN       UTR     s1

我想要的是：

     id  mutation sample
0   MYC  multi        s1
3  MYCL  nonsense     s1
4  MYCL  missense     s2
5  MYCN  missense     s3
6  MYCN  multi        s1

Answer 1

`duplicated`

mask = df.duplicated(['id', 'sample'], keep=False)
df.assign(mutation=df.mutation.mask(mask, 'multi')).drop_duplicates()

     id  mutation sample
0   MYC     multi     s1
2  MYCL   nonsens     s1
3  MYCL  missense     s2
4  MYCN  missense     s3
5  MYCN     multi     s1

`groupby`

df.groupby(['id', 'sample'], sort=False).mutation.pipe(
    lambda g: g.first().mask(g.size() > 1, 'multi')
).reset_index().reindex(df.columns, axis=1)

     id  mutation sample
0   MYC     multi     s1
1  MYCL   nonsens     s1
2  MYCL  missense     s2
3  MYCN  missense     s3
4  MYCN     multi     s1

Answer 2

df.loc[df.duplicated(subset=['id', 'sample'], keep='last'), 'mutation'] = 'multi'
df.drop_duplicates(subset=['id', 'sample'])

說明：首先確定哪些是重復項並更改那些重復項的變異列。 之后，刪除重復項。

刪除pandas數據幀中的重復項后，替換特定的列值

問題描述

我的代碼：

結果：

我想要的是：

2 個解決方案

解決方案1
2 已采納 2018-10-16 15:28:37

`duplicated`

`groupby`

解決方案2
1 2018-10-16 15:24:11

刪除pandas數據幀中的重復項后，替換特定的列值

問題描述

我的代碼：

結果：

我想要的是：

2 個解決方案

解決方案1 2 已采納 2018-10-16 15:28:37

duplicated

groupby

解決方案2 1 2018-10-16 15:24:11

解決方案1
2 已采納 2018-10-16 15:28:37

`duplicated`

`groupby`

解決方案2
1 2018-10-16 15:24:11