熊猫：如何分组并显示唯一值的数量

Question

我有以下格式的数据：

dateObs        website
---            --- 
2015-04-21     google.com
2015-08-13     facebook.com
2015-11-15     google.com
...

我想要这种格式的输出：

year        count of distinct websites
---         ---
2015        2
...

我可以使用以下方法获取每年的网站总数，包括重复项：

import pandas as pd
import numpy as np

data = pd.read_csv(file_path)
groupby = data.groupby(pd.to_datetime(data['dateObs']).dt.year).agg({'website':np.size})

如何丢弃计数中的重复项？

Answer 1

只需使用.nunique() ：

data.groupby(pd.to_datetime(data['dateObs']).dt.year).nunique()

Answer 2

检查是否可以从直接交叉列表中获得所需的内容。

http://pandas.pydata.org//pandas-docs//version//0.17.0//generated//pandas.crosstab.html

使用概述的技术在数据框中创建年份列，然后使用年份和网站列进行交叉表设置。

熊猫：如何分组并显示唯一值的数量

问题描述

2 个解决方案

解决方案1
3 已采纳 2019-03-03 03:39:25

解决方案2
0 2019-03-03 03:27:01

熊猫：如何分组并显示唯一值的数量

问题描述

2 个解决方案

解决方案1 3 已采纳 2019-03-03 03:39:25

解决方案2 0 2019-03-03 03:27:01

解决方案1
3 已采纳 2019-03-03 03:39:25

解决方案2
0 2019-03-03 03:27:01