根据特定列上的特定值计算不同的值

Question

我有一个看起来像这样的熊猫数据框：

姓名	类别	状态
约翰	学生	是的
简	员工	不
以利亚	学生	不
安妮	学生	是的
艾丽	员工	不

我想计算状态为“是”的每个类别的数量

我尝试了以下 2 个代码：

(DataFrame['status'].eq('yes').groupby(DataFrame['category']).nunique())
(DataFrame['status'].eq('yes').groupby(DataFrame['category']).any().sum())

两个代码给出相同的输出：

类别

学生 2

员工 1

但是，这是我期望的输出：

类别

学生 2

员工 0

你能帮我解决这个问题吗？

Answer 1

如果需要计算True的值需要汇总sum ，因为True的处理方式类似于1而False的处理方式类似于0 ：

s = (DataFrame['status'].eq('yes').groupby(DataFrame['category']).sum())
print (s)
category
employee    0
student     2
Name: status, dtype: int64

如果聚合nunique在第一个True, False返回2 ，在第二个No返回1 （第二组没有Yes ）。

为了测试检查每个组的唯一值：

print ((DataFrame['status'].eq('yes').groupby(DataFrame['category']).unique()))
category
employee          [False]
student     [True, False]
Name: status, dtype: object

如果使用any它测试每组是否至少有一个True ，那么输出是不同的：

print ((DataFrame['status'].eq('yes').groupby(DataFrame['category']).any()))
category
employee    False
student      True
Name: status, dtype: bool

根据特定列上的特定值计算不同的值

问题描述

1 个解决方案

解决方案1
1 2022-12-22 08:51:20

根据特定列上的特定值计算不同的值

问题描述

1 个解决方案

解决方案1 1 2022-12-22 08:51:20

解决方案1
1 2022-12-22 08:51:20