Pandas 根據現有列的第一個唯一值創建新列

Question

我正在嘗試向數據框中添加一個新列，其中只有來自現有列的唯一值。 新列中的行可能會減少，其中 np.nan 值可能會出現重復項。

import pandas as pd
import numpy as np

df = pd.DataFrame({'a':[1,2,3,4,5], 'b':[3,4,3,4,5]})
df

    a   b
0   1   3
1   2   4
2   3   3
3   4   4
4   5   5

目標：

    a   b   c
0   1   3   3
1   2   4   4
2   3   3   nan
3   4   4   nan
4   5   5   5

我試過了：

df['c'] = np.where(df['b'].unique(), df['b'], np.nan)

它拋出： operands could not be broadcast together with shapes (3,) (5,) ()

Answer 1

`mask` + `duplicated`

您可以使用 Pandas 方法來屏蔽系列：

df['c'] = df['b'].mask(df['b'].duplicated())

print(df)

   a  b    c
0  1  3  3.0
1  2  4  4.0
2  3  3  NaN
3  4  4  NaN
4  5  5  5.0

Answer 2

與np.where duplicated使用：

df['c'] = np.where(df['b'].duplicated(),np.nan,df['b'])

或者：

df['c'] = df['b'].where(~df['b'].duplicated(),np.nan)

print(df)
   a  b    c
0  1  3  3.0
1  2  4  4.0
2  3  3  NaN
3  4  4  NaN
4  5  5  5.0

Answer 3

ppg 寫道:

df['c'] = df['b'].mask(df['b'].duplicated())

print(df)

   a  b    c
0  1  3  3.0
1  2  4  4.0
2  3  3  NaN
3  4  4  NaN
4  5  5  5.0

我喜歡代碼，但最后一列也應該給出 NaN

    0  1  3  3.0
    1  2  4  4.0
    2  3  3  NaN
    3  4  4  NaN
    4  5  5  NaN

Pandas 根據現有列的第一個唯一值創建新列

問題描述

3 個解決方案

解決方案1
3 已采納 2018-11-14 17:42:13

`mask` + `duplicated`

解決方案2
2 2018-11-14 17:43:29

解決方案3
0 2018-11-14 18:03:16

Pandas 根據現有列的第一個唯一值創建新列

問題描述

3 個解決方案

解決方案1 3 已采納 2018-11-14 17:42:13

mask + duplicated

解決方案2 2 2018-11-14 17:43:29

解決方案3 0 2018-11-14 18:03:16

解決方案1
3 已采納 2018-11-14 17:42:13

`mask` + `duplicated`

解決方案2
2 2018-11-14 17:43:29

解決方案3
0 2018-11-14 18:03:16