將列名傳遞給 R dplyr group_by 和匯總函數

Question

我正在嘗試編寫一個函數，該函數采用數據框和變量名稱（或變量名稱列表）並使用 group_by 和匯總函數輸出摘要信息。 但是，我不斷收到以下錯誤：

 Error: Problem with `mutate()` input `..1`.
 x Input `..1` must be a vector, not a function.
 i Input `..1` is `<fn>`.

或者這個錯誤：

Error in (function (x)  : object 'ym' not found

最后一個錯誤說它找不到名為“value”的列，該列包含數據框的值（在熔化后）。

這是我的代碼：

    tested <- melt(test_data, measure.vars = c('TA','PP','US','UD','UE','UG','UH','XR','RW','PA','TB4',
                                               'TV2','TV4','TV8','TV20','TV40','MV2','MV4','MV8','MV20','MV40','VB'), id.vars = c('TmStamp','year','month','ym','day','hour'))
    
    test_function <- function(data,col){
      stats <- data %>% group_by(!!col,variable) %>%
        summarize(N = length(value[!is.na(value)]),
                  Missing = length(value[is.na(value)]),
                  Per.Avail = (length(value[!is.na(value)])/(length(value[!is.na(value)]) + length(value[is.na(value)]))) * 100,
                  Mean = mean(value, na.rm=TRUE),
                  Median = median(value, na.rm=TRUE),
                  Min = min(value, na.rm=TRUE),
                  Max = max(value, na.rm=TRUE),
                  Range = max(value, na.rm=TRUE) - min(value, na.rm=TRUE),
                  Variance = var(value, na.rm=TRUE),
                  Std.Dev = sd(value, na.rm=TRUE),
                  Coef.Var = sd(value, na.rm=TRUE)/mean(value, na.rm=TRUE),
                  SE = sd(value, na.rm=TRUE)/sqrt(length(value[!is.na(value)])),
                  Skewness = e1071::skewness(value, na.rm=TRUE),
                  Kurtosis = e1071::kurtosis(value, na.rm=TRUE),
                  IQR = IQR(value, na.rm=TRUE),
                  MAD = mad(value, na.rm=TRUE)
        )
      return(stats)
    }

    test_function(tested, ym)

這是一個小數據樣本。 請注意，“變量”是一個始終傳遞到 group_by 函數的列，因此我決定對其進行硬編碼。

structure(list(TmStamp = c("2019-10-01 12:00:00 AM", "2019-10-01 12:05:00 AM", 
"2019-10-01 12:10:00 AM", "2019-10-01 12:15:00 AM", "2019-10-01 12:20:00 AM", 
"2019-10-01 12:25:00 AM", "2019-10-01 12:30:00 AM", "2019-10-01 12:35:00 AM", 
"2019-10-01 12:40:00 AM", "2019-10-01 12:45:00 AM", "2019-10-01 12:50:00 AM", 
"2019-10-01 12:55:00 AM", "2019-10-01 01:00:00 AM", "2019-10-01 01:05:00 AM", 
"2019-10-01 01:10:00 AM", "2019-10-01 01:15:00 AM", "2019-10-01 01:20:00 AM", 
"2019-10-01 01:25:00 AM", "2019-10-01 01:30:00 AM", "2019-10-01 01:35:00 AM"
), year = c(2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 
2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019
), month = c(10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 
10, 10, 10, 10, 10, 10, 10, 10), ym = c("10-2019", "10-2019", 
"10-2019", "10-2019", "10-2019", "10-2019", "10-2019", "10-2019", 
"10-2019", "10-2019", "10-2019", "10-2019", "10-2019", "10-2019", 
"10-2019", "10-2019", "10-2019", "10-2019", "10-2019", "10-2019"
), day = structure(c(18170, 18170, 18170, 18170, 18170, 18170, 
18170, 18170, 18170, 18170, 18170, 18170, 18170, 18170, 18170, 
18170, 18170, 18170, 18170, 18170), class = "Date"), hour = c(23L, 
0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L), variable = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), .Label = c("TA", 
"PP", "US", "UD", "UE", "UG", "UH", "XR", "RW", "PA", "TB4", 
"TV2", "TV4", "TV8", "TV20", "TV40", "MV2", "MV4", "MV8", "MV20", 
"MV40", "VB"), class = "factor"), value = c(6.008, 6.013, 5.915, 
5.777, 5.727, 5.679, 5.653, 5.591, 5.479, 5.353, 5.299, 5.249, 
5.256, 5.171, 5.01, 4.901, 4.716, 4.487, 4.397, 4.25)), row.names = c(NA, 
20L), class = "data.frame")

我將如何編寫此函數以使其接受 group_by 函數中的一個或多個列名？

Answer 1

要使您的功能正常工作，請使用例如{{col}}而不是!!col 。 為了使您的函數適用於多個變量，您可以使用...表示法，您也可以使用它來將變量傳遞給 group_by：

library(dplyr)

test_function <- function(data, ...){
  stats <- data %>% 
    group_by(variable, ...) %>%
    summarize(N = length(value[!is.na(value)]),
              Missing = length(value[is.na(value)]),
              Per.Avail = (length(value[!is.na(value)])/(length(value[!is.na(value)]) + length(value[is.na(value)]))) * 100,
              Mean = mean(value, na.rm=TRUE),
              Median = median(value, na.rm=TRUE),
              Min = min(value, na.rm=TRUE),
              Max = max(value, na.rm=TRUE),
              Range = max(value, na.rm=TRUE) - min(value, na.rm=TRUE),
              Variance = var(value, na.rm=TRUE),
              Std.Dev = sd(value, na.rm=TRUE),
              Coef.Var = sd(value, na.rm=TRUE)/mean(value, na.rm=TRUE),
              SE = sd(value, na.rm=TRUE)/sqrt(length(value[!is.na(value)])),
              Skewness = e1071::skewness(value, na.rm=TRUE),
              Kurtosis = e1071::kurtosis(value, na.rm=TRUE),
              IQR = IQR(value, na.rm=TRUE),
              MAD = mad(value, na.rm=TRUE)
    )
  return(stats)
}

test_function(tested, ym)
#> `summarise()` regrouping output by 'variable' (override with `.groups` argument)
#> # A tibble: 1 x 18
#> # Groups:   variable [1]
#>   variable ym        N Missing Per.Avail  Mean Median   Min   Max Range Variance
#>   <fct>    <chr> <int>   <int>     <dbl> <dbl>  <dbl> <dbl> <dbl> <dbl>    <dbl>
#> 1 TA       10-2~    20       0       100  5.30   5.33  4.25  6.01  1.76    0.283
#> # ... with 7 more variables: Std.Dev <dbl>, Coef.Var <dbl>, SE <dbl>,
#> #   Skewness <dbl>, Kurtosis <dbl>, IQR <dbl>, MAD <dbl>

test_function(tested, ym, year, month)
#> `summarise()` regrouping output by 'variable', 'ym', 'year' (override with `.groups` argument)
#> # A tibble: 1 x 20
#> # Groups:   variable, ym, year [1]
#>   variable ym     year month     N Missing Per.Avail  Mean Median   Min   Max
#>   <fct>    <chr> <dbl> <dbl> <int>   <int>     <dbl> <dbl>  <dbl> <dbl> <dbl>
#> 1 TA       10-2~  2019    10    20       0       100  5.30   5.33  4.25  6.01
#> # ... with 9 more variables: Range <dbl>, Variance <dbl>, Std.Dev <dbl>,
#> #   Coef.Var <dbl>, SE <dbl>, Skewness <dbl>, Kurtosis <dbl>, IQR <dbl>,
#> #   MAD <dbl>

將列名傳遞給 R dplyr group_by 和匯總函數

問題描述

1 個解決方案

解決方案1
4 已采納 2020-10-04 16:59:58

將列名傳遞給 R dplyr group_by 和匯總函數

問題描述

1 個解決方案

解決方案1 4 已采納 2020-10-04 16:59:58

解決方案1
4 已采納 2020-10-04 16:59:58