Pandas groupby和rank - 重复的排名相同

Question

这是我的数据帧：

my_df = pd.DataFrame({'group':['a','a', 'a','b','b'], 'date':['2017-01-02', '2017-01-02','2017-03-01',  '2018-02-05', '2018-04-06']})
my_df['date']= pd.to_datetime(my_df['date'], format = '%Y-%m-%d')

我想在每个组中添加排名，其中相同的值将被分配相同的排名。

这是我想要的输出：

    date        group rank
0   2017-01-02      a 1
1   2017-01-02      a 1
2   2017-03-01      a 2
3   2018-02-05      b 1
4   2018-04-06      b 2

我想我可以通过分组两次并排名并加入原始数据帧来实现，但我想知道是否有更快的方法来做到这一点。

Answer 1

只使用方法dense rank

my_df.groupby(['group'])['date'].rank(method ='dense')
Out[6]: 
0    1.0
1    1.0
2    2.0
3    1.0
4    2.0
Name: date, dtype: float64

Answer 2

您可以使用factorize进行transform ：

my_df['group_rank'] = my_df.groupby(['group'])['date'].transform(lambda x: x.factorize()[0])

>>> my_df
        date group  group_rank
0 2017-01-02     a           0
1 2017-01-02     a           0
2 2017-03-01     a           1
3 2018-02-05     b           0
4 2018-04-06     b           1

如果你在它的末尾添加+ 1 ，它将是你想要的输出中的1和2的等级，但我认为这可能不重要（因为它们在任何情况下都被正确地装箱在一起）

Pandas groupby和rank - 重复的排名相同

问题描述

2 个解决方案

解决方案1
6 已采纳 2018-10-10 15:19:30

解决方案2
2 2018-10-10 15:17:20

Pandas groupby和rank - 重复的排名相同

问题描述

2 个解决方案

解决方案1 6 已采纳 2018-10-10 15:19:30

解决方案2 2 2018-10-10 15:17:20

解决方案1
6 已采纳 2018-10-10 15:19:30

解决方案2
2 2018-10-10 15:17:20