根據分組字段計算唯一值

Question

我正在嘗試創建一個函數，該函數根據另一個分組字段對列表中的唯一值進行計數。 下面顯示了我的示例數據， listaa[i][0]代表分組字段， listaa[i][2]是必須分組的數字。

listaa = [(u'2004-2006', 48600.0, 386011),
 (u'2004-2006', 900.0, 385792),
 (u'2004-2006', 16200.0, 385792),
 (u'2004-2006', 11700.0, 385792),
 (u'2004-2006', 900.0, 385792),
 (u'2006-2008', 900.0, 386198),
 (u'2006-2008', 39600.0, 385916),
 (u'2006-2008', 4500.0, 385916),
 (u'2006-2008', 900.0, 385916),
 (u'2006-2008', 900.0, 385916),
 (u'2008-2010', 11700.0, 386067)]

這是我的代碼，並且可以正常工作。 我想知道是否有最簡單的方法來做同樣的事情。

fechas = list(set([f[0] for f in listaa]))
fechas.sort()
lista1 = []
lista2 = []
for fecha in fechas:
    for l in listaa:
        if l[0] == fecha:
            lista1.append(l[2])
    lista2.append(str(len(set(lista1))))
    lista1 = []
print lista2

預期結果應為： ["2", "2", "1"] 。

Answer 1

您可以使用defaultdict輕松計算每個組的唯一值。 （在移動設備上，對不起，沒有示例輸出。）

from collections import defaultdict 

values = defaultdict(set) 
for row in data:
  values[row[0]].add(row[2])

Answer 2

提供利用nunique()的pandas解決方案：

import pandas as pd

listaa = [(u'2004-2006', 48600.0, 386011),
 (u'2004-2006', 900.0, 385792),
 (u'2004-2006', 16200.0, 385792),
 (u'2004-2006', 11700.0, 385792),
 (u'2004-2006', 900.0, 385792),
 (u'2006-2008', 900.0, 386198),
 (u'2006-2008', 39600.0, 385916),
 (u'2006-2008', 4500.0, 385916),
 (u'2006-2008', 900.0, 385916),
 (u'2006-2008', 900.0, 385916),
 (u'2008-2010', 11700.0, 386067)]

df = pd.DataFrame(listaa, columns=['Date','Val1','Val2'])

df.groupby('Date')['Val2'].nunique().tolist()

得到：

[2, 2, 1]

根據分組字段計算唯一值

問題描述

2 個解決方案

解決方案1
1 2018-08-27 16:24:35

解決方案2
0 已采納 2018-08-27 16:40:11

根據分組字段計算唯一值

問題描述

2 個解決方案

解決方案1 1 2018-08-27 16:24:35

解決方案2 0 已采納 2018-08-27 16:40:11

解決方案1
1 2018-08-27 16:24:35

解決方案2
0 已采納 2018-08-27 16:40:11