python pandas標志是否每個列中的每個值都有一個以上的唯一行

Question

在下面的DataFrame中，我有三列：

   Code      |   Category  |    Count
     X               A          89734
     X               A          239487
     Y               B          298787
     Z               B          87980
     W               C          098454

我需要添加一列，如果一個類別具有多個唯一代碼（例如上面的示例中的B），它將得到一個標志，表示它是一個測試。

所以我正在尋找的輸出是這樣的：

   Code      |   Category  |    Count    | Test_Flag
     X               A          89734       
     X               A          239487
     Y               B          298787         T
     Z               B          87980          T
     W               C          098454

Answer 1

您還可以選擇使用numpy.where進行transform以填充值。

df['Test_flag'] = np.where(df.groupby('Category').Code.transform('nunique') > 1, 'T', '')


>>> df
  Category Code   Count Test_flag
0        A    X   89734          
1        A    X  239487          
2        B    Y  298787         T
3        B    Z   87980         T
4        C    W   98454

Answer 2

您可以使用nunique 過濾來查找index values ，然后使用loc創建新列：

print (df.groupby('Category').Code.filter(lambda x: x.nunique() > 1))
2    Y
3    Z
Name: Code, dtype: object

idx = df.groupby('Category').Code.filter(lambda x: x.nunique() > 1).index
print (idx)
Int64Index([2, 3], dtype='int64')

df.loc[idx, 'Test_Flag'] = 'T'
#if necessary, replace NaN to empty string
#df.Test_Flag = df.Test_Flag.fillna('')

print (df)
  Code Category   Count Test_Flag
0    X        A   89734       NaN
1    X        A  239487       NaN
2    Y        B  298787         T
3    Z        B   87980         T
4    W        C   98454       NaN

loc使用布爾掩碼transform另一種解決方案：

print (df.groupby('Category').Code.transform('nunique'))
0    1
1    1
2    2
3    2
4    1
Name: Code, dtype: int64

mask = df.groupby('Category').Code.transform('nunique') > 1
print (mask)
0    False
1    False
2     True
3     True
4    False
Name: Code, dtype: bool

df.loc[mask, 'Test_Flag'] = 'T'
#if necessary, replace NaN to empty string
#df.Test_Flag = df.Test_Flag.fillna('')

print (df)
  Code Category   Count Test_Flag
0    X        A   89734       NaN
1    X        A  239487       NaN
2    Y        B  298787         T
3    Z        B   87980         T
4    W        C   98454       NaN

python pandas標志是否每個列中的每個值都有一個以上的唯一行

問題描述

2 個解決方案

解決方案1
3 已采納 2017-02-26 21:32:22

解決方案2
2 2017-02-26 20:32:18

python pandas標志是否每個列中的每個值都有一個以上的唯一行

問題描述

2 個解決方案

解決方案1 3 已采納 2017-02-26 21:32:22

解決方案2 2 2017-02-26 20:32:18

解決方案1
3 已采納 2017-02-26 21:32:22

解決方案2
2 2017-02-26 20:32:18