Python：过滤pandas数据帧以保持基于列的指定行数

Question

我有一个pandas数据框，看起来像：

id    name    grade
1     A       10
1     A       12
1     A       15
2     B       20
3     C       19
3     C       16
3     C       11

并且需要使它看起来像：

id    name    grade
1     A       12
1     A       15
2     B       20
3     C       19
3     C       16

在这种情况下，我需要为每个id保持前2行，并且成绩最高。 我知道我可以使用iloc并遍历数据帧，但我想知道是否有更多的pythonic方式来做到这一点。 这有可能吗？ 提前致谢

顺便说一句，如果您有任何想法，请随时编辑问题并给它一个更好的标题。

UPDATE1我已经接受@ willem-van-onsem的答案，因为它首先发布并且对我来说很好。 另一个答案也很好。 我不确定每个答案的表现，所以如果出于任何原因你认为另一个可能更合适，请在这里发表评论，以便我更新答案和帖子以及其他人。

UPDATE2接受的答案在大型数据帧上运行得更好，这就是为什么我要坚持它作为答案。

Answer 1

使用nlargest

df.loc[df.groupby('id').grade.nlargest(2).index.get_level_values(1)].sort_index()

    id  name    grade
1   1   A       12
2   1   A       15
3   2   B       20
4   3   C       19
5   3   C       16

Answer 2

我们可以在第一行的排序name （升序）和grade （降序）（按名称排序没有严格要求），那么我们groupby name ，然后我们得到第一个两行（ head ）：

df.sort_values(['name', 'grade'], ascending=[True, False]).groupby('name').head(2)

这将产生：

>>> df.sort_values(['name', 'grade'], ascending=[True, False]).groupby('name').head(2)
   grade  id name
2     15   1    A
1     12   1    A
3     20   2    B
4     19   3    C
5     16   3    C

Python：过滤pandas数据帧以保持基于列的指定行数

问题描述

2 个解决方案

解决方案1
3 2018-02-01 20:18:48

解决方案2
2 已采纳 2018-02-01 20:13:37

Python：过滤pandas数据帧以保持基于列的指定行数

问题描述

2 个解决方案

解决方案1 3 2018-02-01 20:18:48

解决方案2 2 已采纳 2018-02-01 20:13:37

解决方案1
3 2018-02-01 20:18:48

解决方案2
2 已采纳 2018-02-01 20:13:37