从特定分组的列数据中过滤第一行

Question

数据：

df = pd.DataFrame({'name':['Jane','Jane','Mike','Mike','Jane','Jane','Jane',
                           'Mike','Mike','Jane','Jane','Jane'],
                   'ctg':['A','P','C','B','B','C','B','E','G','L','M','X']})

预期输出：

姓名	ctg
简	一个
简	乙
简	大号

我是 python 新手，我想制作新的 Dataframe，其中只包含每个“Jane”名字的第一行。 你能请任何人帮助我吗？

Answer 1

您可以在带有掩码的自定义组上使用GroupBy.first ：

mask = df['name'].eq('Jane')

out = (df[mask]  # keep only Jane
        # group by consecutive names
       .groupby(df['name'].ne(df['name'].shift()).cumsum(), as_index=False)
       .first()  # first row of each group
      )

输出：

   name ctg
0  Jane   A
1  Jane   B
2  Jane   L

从特定分组的列数据中过滤第一行

问题描述

1 个解决方案

解决方案1
1 已采纳 2022-07-18 13:35:43

从特定分组的列数据中过滤第一行

问题描述

1 个解决方案

解决方案1 1 已采纳 2022-07-18 13:35:43

解决方案1
1 已采纳 2022-07-18 13:35:43