如何計算熊貓數據框中每列的唯一值？

Question

我在下面有一個代碼，它在我的數據框的每一列中創建一個缺失值的匯總表。 我希望我可以構建一個類似的表來計算唯一值，但 DataFrame 沒有 unique() 方法，只有每一列獨立。

def missing_values_table(df): 
    mis_val = df.isnull().sum()
    mis_val_percent = 100 * df.isnull().sum()/len(df)
    mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
    mis_val_table_ren_columns = mis_val_table.rename(
    columns = {0 : 'Missing Values', 1 : '% of Total Values'})
    return mis_val_table_ren_columns

（來源： https : //stackoverflow.com/a/39734251/7044473 ）

我怎樣才能為獨特的價值實現同樣的目標？

Answer 1

您可以使用名為“nunique()”的函數來獲取所有列的唯一計數

df = pd.DataFrame(np.random.randint(0, 3, (4, 3)))
print(df)
   0  1  2
0  2  0  2
1  1  2  1
2  1  2  2
3  1  1  2

count=df.nunique()
print(count)
0    2
1    3
2    2
dtype: int64

Answer 2

您可以使用pd.unique函數創建一系列唯一值計數。 例如：

>>> df = pd.DataFrame(np.random.randint(0, 3, (4, 3)))
>>> print(df)
   0  1  2
0  2  0  2
1  1  2  1
2  1  2  2
3  1  1  2

>>> pd.Series({col: len(pd.unique(df[col])) for col in df})
0    2
1    3
2    2
dtype: int64

如果你真的想要每個值出現在每列中的次數，你可以用pd.value_counts做類似的事情：

>>> pd.DataFrame({col: pd.value_counts(df[col]) for col in df}).fillna(0)
     0  1    2
0  0.0  1  0.0
1  3.0  1  1.0
2  1.0  2  3.0

Answer 3

這不完全是您所要求的，但可能對您的分析有用。

def diversity_percentage(df, columns):
    """
    This function returns the number of different elements in each column as a percentage of the total elements in the group.
    A low value indicates there are many repeated elements.
    Example 1: a value of 0 indicates all values are the same.
    Example 2: a value of 100 indicates all values are different.
    """
    diversity = dict()

    for col in columns:
        diversity[col] = len(df[col].unique())

    diversity_series = pd.Series(diversity)
    return (100*diversity_series/len(df)).sort_values()

__

>>> diversity_percentage(df, selected_columns)
operationdate                0.002803
payment                      1.076414
description                 16.933901
customer_id                 17.536581
customer_name               48.895554
customer_email              62.129282
token                       68.290632
id                         100.000000
transactionid              100.000000
dtype: float64

但是，您始終可以直接返回diversity_series並且只會獲得計數。

如何計算熊貓數據框中每列的唯一值？

問題描述

3 個解決方案

解決方案1
2 2020-11-06 15:02:08

解決方案2
1 已采納 2017-12-29 22:04:21

解決方案3
1 2018-05-28 12:45:47

如何計算熊貓數據框中每列的唯一值？

問題描述

3 個解決方案

解決方案1 2 2020-11-06 15:02:08

解決方案2 1 已采納 2017-12-29 22:04:21

解決方案3 1 2018-05-28 12:45:47

解決方案1
2 2020-11-06 15:02:08

解決方案2
1 已采納 2017-12-29 22:04:21

解決方案3
1 2018-05-28 12:45:47