需要幫助為 summary_table(dplyr::group_by 編寫 function

Question

我正在嘗試創建一個 function，它將最大限度地減少我必須單獨計算所有統計數據（最小值、中值、最大值、平均值、SD 和 NA）的次數。 我已經包含了這個大列表的前兩個部分，以及該列表的使用方式。

  list("Child Age" =
       list("Min" = ~ min(.data$ChildAge,na_rm = TRUE),
            "Median" = ~ median(.data$ChildAge,na_rm = TRUE),
            "Mean &plusmn; SD" = ~ qwraps2::mean_sd(.data$ChildAge,na_rm = TRUE),
            "Max" = ~ max(.data$ChildAge,na_rm = TRUE),
            "NA (Not factored in analysis)" =  ~  percent(sum(is.na(.data$ChildAge)) /length(.data$ChildAge))),
      "Child Gender" =
       list("Girl" = ~ qwraps2::n_perc(.data$ChildGender == "Girl", na_rm = TRUE),
            "Boy" = ~ qwraps2::n_perc(.data$ChildGender == "Boy", na_rm = TRUE))
......
by_clinic_demographic <- summary_table(dplyr::group_by(df, Clinic), demographic_summary)
by_clinic_demographic

我試圖設計一個可以工作的 function：

analysis_func <- function(x=df$StudyID) {
  list1 <- list("Min" =   min(x,na.rm = TRUE),
            "Median" =  median(x,na.rm = TRUE),
            "Mean &plusmn; SD" =  qwraps2::mean_sd(x,na_rm = TRUE),
            "Max" =  max(x,na.rm = TRUE),
          "NA (Not factored in analysis)" =   percent(sum(is.na(x)) /length(x)))
  #str(list1)
  return(list1)
}

然后當我 go 在新列表中調用此 function 時：

assessment_summary <-
  list("Mother Age" = analysis_func(.data$MotherAge),,

我收到錯誤：錯誤： x必須是公式

當我在 = 符號之后添加 ~ 時，例如：

"Min" = ~  min(x,na.rm = TRUE)

然后我得到錯誤： FUN(X[[i]], ...) 中的錯誤：僅在具有所有數字變量的數據幀上定義

這是一個簡化版本，以突出我遇到的問題：

analysis_func <- function(x=df$StudyID) {
  list1 <- list("Min" = ~ min(x,na.rm = TRUE),
            "Median" = ~ median(x,na.rm = TRUE),
            "Mean &plusmn; SD" = ~ qwraps2::mean_sd(x,na_rm = TRUE),
            "Max" = ~ max(x,na.rm = TRUE),
          "NA (Not factored in analysis)" =  ~ percent(sum(is.na(x)) /length(x)))
  return(list1)
}
test_summary <-
  list("Scores" = analysis_func(.data$StudyID))
# test_stack <- summary_table(dplyr::group_by(dataframe, s), test_summary)
# test_stack

n = c(2, 3, 5, 4,10,12,rep(10,4)) 
s = c(rep("aa",5),rep("bb",5)) 
dataframe <- data.frame (n,s)



test_summary2 <-
  list("Scores" =
       list("Min" = ~ min(.data$n,na_rm = TRUE),
            "Median" = ~ median(.data$n,na_rm = TRUE),
            "Mean &plusmn; SD" = ~ qwraps2::mean_sd(.data$n,na_rm = TRUE),
            "Max" = ~ max(.data$n,na_rm = TRUE),
            "NA (Not factored in analysis)" =  ~  percent(sum(is.na(.data$n)) /length(.data$n)))
  )

test_stack <- summary_table(dplyr::group_by(dataframe, s), test_summary2)
test_stack

任何幫助，將不勝感激。

Answer 1

我們可以使用這個 function：

analysis_func <- function(x) {
   list1 <- list(Min = min(x,na.rm = TRUE),
                 Median = median(x,na.rm = TRUE),
                 Mean = mean(x,na.rm = TRUE),
                 SD = sd(x, na.rm = TRUE),
                 Max = max(x,na.rm = TRUE),
                "NA (Not factored in analysis)" =  mean(is.na(x)))
    return(list(list1))
}

然后按組調用它。

library(dplyr)
dataframe %>% group_by(s) %>% summarise(summary_list = analysis_func(n)) 


# A tibble: 3 x 2
#  s     summary_list    
#  <fct> <list>          
#1 aa    <named list [6]>
#2 bb    <named list [6]>
#3 cc    <named list [6]>

如果我們想要 output 作為單獨的列，我們可以添加unnest_wider

dataframe %>%
  group_by(s) %>%
  summarise(summary_list = analysis_func(n))  %>%
  tidyr::unnest_wider(summary_list)

# A tibble: 3 x 7
#   s       Min Median  Mean    SD   Max `NA (Not factored in analysis)`
#  <fct> <dbl>  <dbl> <dbl> <dbl> <dbl>                           <dbl>
#1 aa        2      3     3  1.41     4                               0
#2 bb        3      3     3 NA        3                               0
#3 cc        5      5     5 NA        5                               0

需要幫助為 summary_table(dplyr::group_by 編寫 function

問題描述

1 個解決方案

解決方案1
0 已采納 2020-04-23 01:02:11

需要幫助為 summary_table(dplyr::group_by 編寫 function

問題描述

1 個解決方案

解決方案1 0 已采納 2020-04-23 01:02:11

解決方案1
0 已采納 2020-04-23 01:02:11