嵌套多个 dplyr::summarise 与不同的分组变量

Question

I have a data frame with 100 records including bmi class (over or below 30), waist circumference class (over or below threshold) and outcome variable (deceased 0 or 1).我有一个包含 100 条记录的数据框，包括 bmi class（超过或低于 30）、腰围 class（超过或低于阈值）和结果变量（已故 0 或 1）。

set.seed(1)
data <- 
tibble(bmiclass=sample(x=c(0,1), size=100, replace = TRUE),
       wcclass=sample(x=c(0,1), size=100, replace = TRUE),
       deceased=sample(x=c(0,1), size=100, replace = TRUE))

I'd need to get two information in the same table: 1) percentage of subjects in the higher WC class by BMI group and 2) the risk of death by BMI group and WC class.我需要在同一张表中获得两个信息：1）BMI 组较高 WC class 的受试者百分比和 2）BMI 组和 WC class 的死亡风险。 I managed to do this by joining two dplyr::group_by and dplyr::summarise by left_join function as follows:我设法通过加入两个 dplyr::group_by 和 dplyr::summarise by left_join function 来做到这一点，如下所示：

data %>% group_by(bmiclass, wcclass) %>% dplyr::summarise(risk.death=sum(deceased)/n()*100) %>% 
  left_join(data %>% group_by(bmiclass) %>% dplyr::summarise(risk.wc=sum(wcclass)/n()*100), by="bmiclass")

BUT i'm wondering if there is a more straightforward way to do it simpler without left_join?但是我想知道是否有更直接的方法可以在没有left_join的情况下更简单地做到这一点？

Answer 1

This will equivalently do the same thing这将等效地做同样的事情

data %>% 
  group_by(bmiclass) %>%
  mutate(risk.wc = sum(wcclass)/n()*100) %>%
  group_by(bmiclass, wcclass, risk.wc) %>% summarise(risk.death=sum(deceased)/n()*100)

# A tibble: 4 x 4
# Groups:   bmiclass, wcclass [4]
  bmiclass wcclass risk.wc risk.death
     <dbl>   <dbl>   <dbl>      <dbl>
1        0       0    49.0       52  
2        0       1    49.0       50  
3        1       0    45.1       64.3
4        1       1    45.1       56.5

Check it with your code用你的代码检查它

> data %>% group_by(bmiclass, wcclass) %>% dplyr::summarise(risk.death=sum(deceased)/n()*100) %>% 
+   left_join(data %>% group_by(bmiclass) %>% dplyr::summarise(risk.wc=sum(wcclass)/n()*100), by="bmiclass")
`summarise()` has grouped output by 'bmiclass'. You can override using the `.groups` argument.
# A tibble: 4 x 4
# Groups:   bmiclass [2]
  bmiclass wcclass risk.death risk.wc
     <dbl>   <dbl>      <dbl>   <dbl>
1        0       0       52      49.0
2        0       1       50      49.0
3        1       0       64.3    45.1
4        1       1       56.5    45.1

Answer 2

Without performing a join you can do:无需执行连接，您可以执行以下操作：

library(dplyr)

data %>% 
  group_by(bmiclass, wcclass) %>%
  summarise(risk.death = mean(deceased*100), 
            risk.wc = n()) %>%
  mutate(risk.wc = mean(rep(wcclass, risk.wc)) * 100) %>%
  ungroup

#  bmiclass wcclass risk.death risk.wc
#     <dbl>   <dbl>      <dbl>   <dbl>
#1        0       0       52      49.0
#2        0       1       50      49.0
#3        1       0       64.3    45.1
#4        1       1       56.5    45.1

嵌套多个 dplyr::summarise 与不同的分组变量

问题描述

2 个解决方案

解决方案1
1 已采纳 2021-03-22 08:43:03

解决方案2
1 2021-03-22 08:46:44

嵌套多个 dplyr::summarise 与不同的分组变量

问题描述

2 个解决方案

解决方案1 1 已采纳 2021-03-22 08:43:03

解决方案2 1 2021-03-22 08:46:44

解决方案1
1 已采纳 2021-03-22 08:43:03

解决方案2
1 2021-03-22 08:46:44