如何按熊貓中的兩列計算唯一記錄？

Question

我在熊貓中有數據框：

In [10]: df
Out[10]:
    col_a    col_b  col_c  col_d
0  France    Paris      3      4
1      UK    Londo      4      5
2      US  Chicago      5      6
3      UK  Bristol      3      3
4      US    Paris      8      9
5      US   London     44      4
6      US  Chicago     12      4

我需要計算獨特的城市。 我可以計算獨特的狀態

In [11]: df['col_a'].nunique()
Out[11]: 3

我可以嘗試計算獨特的城市

In [12]: df['col_b'].nunique()
Out[12]: 5

但這是錯誤的，因為美國巴黎和法國巴黎是不同的城市。 所以現在我這樣做：

In [13]: df['col_a_b'] = df['col_a'] + ' - ' + df['col_b']

In [14]: df
Out[14]:
    col_a    col_b  col_c  col_d         col_a_b
0  France    Paris      3      4  France - Paris
1      UK    Londo      4      5      UK - Londo
2      US  Chicago      5      6    US - Chicago
3      UK  Bristol      3      3    UK - Bristol
4      US    Paris      8      9      US - Paris
5      US   London     44      4     US - London
6      US  Chicago     12      4    US - Chicago

In [15]: df['col_a_b'].nunique()
Out[15]: 6

也許有更好的方法？ 無需創建額外的列。

Answer 1

通過使用ngroups

df.groupby(['col_a', 'col_b']).ngroups
Out[101]: 6

或者使用set

len(set(zip(df['col_a'],df['col_b'])))
Out[106]: 6

Answer 2

您可以選擇col_a和col_b ，刪除重復項，然后檢查結果數據框的形狀/長度：

df[['col_a', 'col_b']].drop_duplicates().shape[0]
# 6

len(df[['col_a', 'col_b']].drop_duplicates())
# 6

因為groupby會忽略NaN s，並且可能會不必要地調用排序過程，所以如果列中有NaN s，請相應地選擇要使用的方法：

考慮如下數據框：

df = pd.DataFrame({
    'col_a': [1,2,2,pd.np.nan,1,4],
    'col_b': [2,2,3,pd.np.nan,2,pd.np.nan]
})

print(df)

#   col_a  col_b
#0    1.0    2.0
#1    2.0    2.0
#2    2.0    3.0
#3    NaN    NaN
#4    1.0    2.0
#5    4.0    NaN

時間：

df = pd.concat([df] * 1000)

%timeit df.groupby(['col_a', 'col_b']).ngroups
# 1000 loops, best of 3: 625 µs per loop

%timeit len(df[['col_a', 'col_b']].drop_duplicates())
# 1000 loops, best of 3: 1.02 ms per loop

%timeit df[['col_a', 'col_b']].drop_duplicates().shape[0]
# 1000 loops, best of 3: 1.01 ms per loop    

%timeit len(set(zip(df['col_a'],df['col_b'])))
# 10 loops, best of 3: 56 ms per loop

%timeit len(df.groupby(['col_a', 'col_b']))
# 1 loop, best of 3: 260 ms per loop

結果：

df.groupby(['col_a', 'col_b']).ngroups
# 3

len(df[['col_a', 'col_b']].drop_duplicates())
# 5

df[['col_a', 'col_b']].drop_duplicates().shape[0]
# 5

len(set(zip(df['col_a'],df['col_b'])))
# 2003

len(df.groupby(['col_a', 'col_b']))
# 2003

所以區別：

選項 1：

df.groupby(['col_a', 'col_b']).ngroups

速度很快，它排除了包含NaN的行。

選項 2 和 3：

len(df[['col_a', 'col_b']].drop_duplicates())
df[['col_a', 'col_b']].drop_duplicates().shape[0]

相當快，它將NaN視為唯一值。

選項 4 和 5：

len(set(zip(df['col_a'],df['col_b']))) 
len(df.groupby(['col_a', 'col_b']))

慢，並且遵循numpy.nan == numpy.nan為 False 的邏輯，因此不同的(nan, nan)行被認為是不同的。

Answer 3

In [105]: len(df.groupby(['col_a', 'col_b']))
Out[105]: 6

Answer 4

試試這個，我基本上是從 df 的行數中減去重復組的數量。 這是假設我們對 df 中的所有類別進行分組

df.shape[0] - df[['col_a','col_b']].duplicated().sum()

774 µs ± 603 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)

Answer 5

import pandas as pd
data = {'field1':[1,4,1,68,9],'field2':[1,1,4,5,9]}
df = pd.DataFrame(data)
results = df.groupby('field1')['field2'].nunique()
results

輸出：

field1
1     2
4     1
9     1
68    1
Name: field2, dtype: int64

如何按熊貓中的兩列計算唯一記錄？

問題描述

5 個解決方案

解決方案1
40 已采納 2017-10-30 20:35:48

解決方案2
14 2017-10-30 20:22:28

解決方案3
5 2017-10-30 20:25:15

解決方案4
0 2018-02-13 23:23:54

解決方案5
0 2020-09-30 11:00:46

如何按熊貓中的兩列計算唯一記錄？

問題描述

5 個解決方案

解決方案1 40 已采納 2017-10-30 20:35:48

解決方案2 14 2017-10-30 20:22:28

解決方案3 5 2017-10-30 20:25:15

解決方案4 0 2018-02-13 23:23:54

解決方案5 0 2020-09-30 11:00:46

解決方案1
40 已采納 2017-10-30 20:35:48

解決方案2
14 2017-10-30 20:22:28

解決方案3
5 2017-10-30 20:25:15

解決方案4
0 2018-02-13 23:23:54

解決方案5
0 2020-09-30 11:00:46