像Qlik一樣計算pandas數據框中列中的唯一值？

Question

如果我有一張這樣的桌子：

df = pd.DataFrame({
         'hID': [101, 102, 103, 101, 102, 104, 105, 101],
         'dID': [10, 11, 12, 10, 11, 10, 12, 10],
         'uID': ['James', 'Henry', 'Abe', 'James', 'Henry', 'Brian', 'Claude', 'James'],
         'mID': ['A', 'B', 'A', 'B', 'A', 'A', 'A', 'C']
})

我可以在count(distinct hID)執行count(distinct hID)以得出唯一 hID 的計數為 5。 我如何使用 Pandas 數據框在 python 中做到這一點？ 或者也許是一個 numpy 數組？ 同樣，如果要執行count(hID)我將在count(hID)得到 8。 在熊貓中這樣做的等效方法是什么？

Answer 1

計算不同的值，使用nunique ：

df['hID'].nunique()
5

只計算非空值，使用count ：

df['hID'].count()
8

計算包括空值在內的總值，使用size屬性：

df['hID'].size
8

編輯以添加條件

使用布爾索引：

df.loc[df['mID']=='A','hID'].agg(['nunique','count','size'])

或使用query ：

df.query('mID == "A"')['hID'].agg(['nunique','count','size'])

輸出：

nunique    5
count      5
size       5
Name: hID, dtype: int64

Answer 2

如果我假設 data 是您的數據框的名稱，您可以執行以下操作：

data['race'].value_counts()

這將向您顯示不同的元素及其出現次數。

Answer 3

或者獲取每列的唯一值的數量：

df.nunique()

dID    3
hID    5
mID    3
uID    5
dtype: int64

pandas 0.20.0新pandas 0.20.0 pd.DataFrame.agg

df.agg(['count', 'size', 'nunique'])

         dID  hID  mID  uID
count      8    8    8    8
size       8    8    8    8
nunique    3    5    3    5

你總是能夠在groupby做一個agg 。 我最后使用了stack ，因為我更喜歡演示文稿。

df.groupby('mID').agg(['count', 'size', 'nunique']).stack()


             dID  hID  uID
mID                       
A   count      5    5    5
    size       5    5    5
    nunique    3    5    5
B   count      2    2    2
    size       2    2    2
    nunique    2    2    2
C   count      1    1    1
    size       1    1    1
    nunique    1    1    1

Answer 4

您可以在熊貓中使用nunique ：

df.hID.nunique()
# 5

Answer 5

要計算列中的唯一值，例如hID df hID ，請使用：

len(df.hID.unique())

Answer 6

我正在尋找類似的東西，我找到了另一種可以幫助你的方法

如果要計算空值的數量，可以使用此函數：

def count_nulls(s):
    return s.size - s.count()

如果要在唯一計數中包含 NaN 值，則需要將 dropna=False 傳遞給 nunique 函數。

def unique_nan(s):
    return s.nunique(dropna=False)

以下是使用泰坦尼克號數據集的所有值的匯總：

from scipy.stats import mode

agg_func_custom_count = {
    'embark_town': ['count', 'nunique', 'size', unique_nan, count_nulls, set]
}
df.groupby(['deck']).agg(agg_func_custom_count)

你可以在這里找到更多信息

Answer 7

您可以使用 len 函數使用唯一屬性

len(df['hID'].unique()) 5

像Qlik一樣計算pandas數據框中列中的唯一值？

問題描述

7 個解決方案

解決方案1
270 已采納 2017-08-18 15:20:29

編輯以添加條件

解決方案2
117 2017-08-18 15:23:55

解決方案3
35 2017-08-18 15:23:54

解決方案4
3 2017-08-18 15:19:49

解決方案5
1 2019-12-03 20:04:57

解決方案6
0 2021-10-16 14:00:26

解決方案7
-4 2018-12-19 09:59:44

像Qlik一樣計算pandas數據框中列中的唯一值？

問題描述

7 個解決方案

解決方案1 270 已采納 2017-08-18 15:20:29

編輯以添加條件

解決方案2 117 2017-08-18 15:23:55

解決方案3 35 2017-08-18 15:23:54

解決方案4 3 2017-08-18 15:19:49

解決方案5 1 2019-12-03 20:04:57

解決方案6 0 2021-10-16 14:00:26

解決方案7 -4 2018-12-19 09:59:44

解決方案1
270 已采納 2017-08-18 15:20:29

解決方案2
117 2017-08-18 15:23:55

解決方案3
35 2017-08-18 15:23:54

解決方案4
3 2017-08-18 15:19:49

解決方案5
1 2019-12-03 20:04:57

解決方案6
0 2021-10-16 14:00:26

解決方案7
-4 2018-12-19 09:59:44