使用 tidyverse 寻找 function 或公式来创建包含许多组和许多变量的均值和标准差的表格

Question

我需要准备一个表格，其中包括几个人口统计变量和许多变量的每个级别的平均值和标准偏差。

考虑以下数据：

df <- tibble(place=c("London","Paris","London","Rome","Rome","Madrid","Madrid"),gender=c("m","f","f","f","m","m","f"), education = c(1,1,2,3,5,5,3), var1 = c(2.2,3.1,4.5,1,5,1.4,2.3),var2 = c(4.2,2.1,2.5,4,5,4.4,1.3),var3 = c(0.2,0.1,3.5,3,5,2.4,4.3))

我想得到一个 dataframe ，其中包含第一列中的分组变量（地点、性别、教育）及其水平（例如，伦敦、巴黎等）以及每个变量的均值和标准差，以 var (var1 , var2, var3) 在附加列中。

我知道如何一次为一组和几个变量执行此操作。 但是，由于我需要重复数十次，我正在寻找一种方法来自动化这个过程。 有一个function 会很棒，我只需要传递 (a) 分组变量的名称（例如，性别、教育）和 (b) 从中获取 M / SD 的变量（例如 var1、var2 ）。

我寻找的解决方案应如下所示（以下示例中的统计信息不正确）：

my_results <- tibble(grouping_vars = c("place_London","place_Paris","place_Rome","place_Madrid","gender_m","gender_f","last_element"),mean_var1=c(1.3,2.5,4.5,1.7,2.5,3.6,4.0),sd_var1=c(0.01,0.41,0.21,0.12,0.02,0.38,0.28),mean_var2=c(4.3,4.5,4.0,1.2,2.5,1.6,2.3),sd_var2=c(0.21,0.1,0.1,0.32,0.22,0.18,0.08),mean_var3=c(2.3,2.5,2.0,3.2,3.5,0.6,5),sd_var3=c(0.51,0.15,0.51,0.52,0.52,0.15,0.48))

  grouping_vars  mean_var1 sd_var1 mean_var2 sd_var2 mean_var3 sd_var3
  <chr>              <dbl>   <dbl>     <dbl>   <dbl>     <dbl>   <dbl>
1 place_London         1.3    0.01       4.3    0.21       2.3    0.51
2 place_Paris          2.5    0.41       4.5    0.1        2.5    0.15
3 place_Rome           4.5    0.21       4      0.1        2      0.51
4 place_Madrid         1.7    0.12       1.2    0.32       3.2    0.52
5 gender_m             2.5    0.02       2.5    0.22       3.5    0.52
6 gender_f             3.6    0.38       1.6    0.18       0.6    0.15
7 last_element         4      0.28       2.3    0.08       5      0.48

由于我通常使用 tidyverse，因此我特别欣赏使用这些软件包的解决方案（可能是 dplyr 或 purrr？）。

编辑：

我认为使用 map() 会有一种优雅的方式来做到这一点。 也许有，但我还没有找到。 与此同时，我想出了一种方法，可以简单地将数据重组为适当的长格式，然后计算统计数据。

df %>% 
  # all grouping vars need to be of the same type, here "factor" is most appropriate
  mutate_at(grouping_vars, list(factor)) %>%
  # pivot longer, so that each row is a unique combination of grouping variable and grouping level
  pivot_longer(
    cols = one_of(grouping_vars), 
    names_to = "group_var",
    values_to = "group_level"
  ) %>% 
  # merge grouping variable and group level into a single column 
  unite(var_level,group_var,group_level, sep="_") %>% 
  # group by group level
  group_by(var_level) %>% 
  # compute means and sd for each test variable
  summarise_at(test_vars,  list(~mean(., na.rm = TRUE), ~sd(., na.rm = TRUE)))

结果似乎很好，例如，住在伦敦的两个人的 var1 的平均值 (2.2 + 4.5) 是 3.35。

# A tibble: 10 x 7
   var_level    var1_mean var2_mean var3_mean var1_sd var2_sd var3_sd
   <chr>            <dbl>     <dbl>     <dbl>   <dbl>   <dbl>   <dbl>
 1 education_1       2.65      3.15      0.15   0.636   1.48   0.0707
 2 education_2       4.5       2.5       3.5   NA      NA     NA     
 3 education_3       1.65      2.65      3.65   0.919   1.91   0.919 
 4 education_5       3.2       4.7       3.7    2.55    0.424  1.84  
 5 gender_f          2.72      2.48      2.72   1.47    1.13   1.83  
 6 gender_m          2.87      4.53      2.53   1.89    0.416  2.40  
 7 place_London      3.35      3.35      1.85   1.63    1.20   2.33  
 8 place_Madrid      1.85      2.85      3.35   0.636   2.19   1.34  
 9 place_Paris       3.1       2.1       0.1   NA      NA     NA     
10 place_Rome        3         4.5       4      2.83    0.707  1.41

对这种方法可能存在的风险或如何改进有任何想法？

Answer 1

一种选择是来自psych的describeBy function ：

library(psych)
describeBy(df,group = c("gender","education"), mat= TRUE)

然后从那里子集你想要的东西。

dplyr的另一个非常简单的选项：

library(dplyr)
group.vars <- c("gender","education")
measure.vars <- c("var1","var2")

df %>% 
  group_by_at(group.vars) %>%
  summarize_at(measure.vars,
                      list(mean =~ mean(.),sd =~ sd(.)))
# A tibble: 5 x 6
# Groups:   gender [2]
  gender education var1_mean var2_mean var1_sd var2_sd
  <chr>      <dbl>     <dbl>     <dbl>   <dbl>   <dbl>
1 f              1      3.1       2.1   NA      NA    
2 f              2      4.5       2.5   NA      NA    
3 f              3      1.65      2.65   0.919   1.91 
4 m              1      2.2       4.2   NA      NA    
5 m              5      3.2       4.7    2.55    0.424

您可以继续将其他 function 添加到该列表中。 对于每个元素，名称将附加到变量中，结果将来自列值。 回想一下~是function(x)的简写。

使用 tidyverse 寻找 function 或公式来创建包含许多组和许多变量的均值和标准差的表格

问题描述

编辑：

1 个解决方案

解决方案1
3 2020-05-27 21:37:03

使用 tidyverse 寻找 function 或公式来创建包含许多组和许多变量的均值和标准差的表格

问题描述

编辑：

1 个解决方案

解决方案1 3 2020-05-27 21:37:03

解决方案1
3 2020-05-27 21:37:03