在帶有動態變量的 R 中使用 dplyr 匯總

Question

我試圖在 R 中使用來自 dplyr 的匯總和分組，但是當我使用變量代替顯式調用匯總列時，它使用每一行的整個數據集的 dist 總和，而不是正確分組。 這可以從下面的 TestBad 和 TestGood 之間的差異中很容易看出。 我只是希望能夠像在 TestBad 中一樣使用 GraphVar 變量復制 TestGood 的結果。

    require("dplyr")
    GraphVar <- "dist"

    TestBad <- summarise(group_by_(cars,"speed"),Sum=sum(cars[[GraphVar]],na.rm=TRUE),Count=n())

    testGood <- summarise(group_by_(cars,"speed"),Sum=sum(dist,na.rm=TRUE),Count=n())

謝謝！

Answer 1

二月2020年，從包rlang這個tidyeval工具。 特別是，如果使用字符串，您可以使用.data代詞。

library(dplyr)
GraphVar = "dist"
cars %>%
     group_by(.data[["speed"]]) %>%
     summarise(Sum = sum(.data[[GraphVar]], na.rm = TRUE),
               Count = n() )

雖然它們將在dplyr 1.0.0 中被取代（但不會被棄用），但作用域助手*_at()函數在處理字符串時很有用。

cars %>%
     group_by_at("speed") %>%
     summarise_at(.vars = vars(GraphVar), 
                  .funs = list(Sum = ~sum(., na.rm = TRUE),
                               Count = ~n() ) )

2016 年，您需要標准評估函數lazyeval::interp() summarise_()和lazyeval::interp() 。 這在 2020 年仍然有效，但已被棄用。

library(lazyeval)
cars %>%
    group_by_("speed") %>%
    summarise_(Sum = interp(~sum(var, na.rm = TRUE), var = as.name(GraphVar)), 
             Count = ~n() )

Answer 2

按名稱引用一列或多列的最新用法似乎是

cars %>% group_by(across("speed")) %>% ...
cars %>% group_by(across(c("speed", "dist"))) %>% ...

見vignette("colwise") ，部分Other verbs 。

在帶有動態變量的 R 中使用 dplyr 匯總

問題描述

2 個解決方案

解決方案1
10 已采納 2016-08-31 14:47:20

解決方案2
1 2020-12-24 13:36:54

在帶有動態變量的 R 中使用 dplyr 匯總

問題描述

2 個解決方案

解決方案1 10 已采納 2016-08-31 14:47:20

解決方案2 1 2020-12-24 13:36:54

解決方案1
10 已采納 2016-08-31 14:47:20

解決方案2
1 2020-12-24 13:36:54