如何使用 pandas 计算一个组的总计 function 的 NA？

Question

我有一个 dataframe 如下图所示

df = pd.DataFrame(
    {'stud_id' : [101, 101, 101, 101, 
                  101, 101, 101, 101],
     'sub_code' : ['CSE01', 'CSE01', 'CSE01', 
                   'CSE01', 'CSE02', 'CSE02',
                   'CSE02', 'CSE02'],
     'ques_date' : ['13/11/2020', '10/1/2018','11/11/2017', '27/03/2016', 
                '13/05/2010',  '10/11/2008','11/1/2007', '27/02/2006'],
     'resp_date' : [np.nan, '11/1/2018','14/11/2017', '29/03/2016', 
                np.nan, np.nan,np.nan,'28/02/2006'],
     'marks' : [77, 86, 55, 90, 
                65, 90, 80, 67]}
)
df['ques_date'] = pd.to_datetime(df['ques_date'])
df['resp_date'] = pd.to_datetime(df['resp_date'])
df['date_diff'] = (df['resp_date'] - df['ques_date']).dt.days

我想做以下

a) 对于每个stud_id和sub_code组合，获取 avg date_diff 。

b) 对于每个stud_id和sub_code组合，获取NA的平均数。 NAs表示缺乏响应。 例如： stud_id = 101 AND sub_code = CSE01组合在 4 条记录中具有 `1 NA，导致 1/4 = 0.25。

我尝试了以下但不确定如何获得总计 function 的平均NA

df.groupby(['stud_id','sub_code']).agg(stud_total_records = ('stud_id','count'),
                                            avg_resp_time = ('date_diff','mean'),
                                            lack_resp_pct = (df.groupby(['stud_id','sub_code'])['resp_date'].isna().sum()).reset_index(name='NA_cnt')['NA_cnt']/stud_total_records)

我希望我的 output 如下所示

Answer 1

更新

使用惰性组：

grp = df.groupby(['stud_id', 'sub_code'])

out = grp.agg(stud_total_records = ('stud_id', 'count'),
              avg_resp_time = ('date_diff', 'mean'),
              lack_resp_pct = ('date_diff', lambda x: sum(x.isna()) / sum(df['date_diff'].isna()))) \
         .reset_index()
print(out)

# Output
   stud_id sub_code  stud_total_records  avg_resp_time  lack_resp_pct
0      101    CSE01                   4           12.0           0.25
1      101    CSE02                   4            1.0           0.75

旧答案尝试：

out = df.groupby(['stud_id','sub_code']).agg(stud_total_records = ('stud_id', 'count'),
                                            avg_resp_time = ('date_diff', 'mean'))

out['lack_resp_pct'] = df[df['date_diff'].isna()].value_counts(['stud_id', 'sub_code'], normalize=True)

Output：

>>> out.reset_index()
   stud_id sub_code  stud_total_records  avg_resp_time  lack_resp_pct
0      101    CSE01                   4           12.0           0.25
1      101    CSE02                   4            1.0           0.75

如何使用 pandas 计算一个组的总计 function 的 NA？

问题描述

1 个解决方案

解决方案1
0 2022-01-14 14:48:45

如何使用 pandas 计算一个组的总计 function 的 NA？

问题描述

1 个解决方案

解决方案1 0 2022-01-14 14:48:45

解决方案1
0 2022-01-14 14:48:45