對列的子集執行 dplyr 變異

Question

我有一個這樣的數據框（真實數據集有更多的行和列）

set.seed(15)
dd <- data.frame(id=letters[1:4], matrix(runif(5*4), nrow=4))

#   id        X1        X2        X3        X4        X5
# 1  a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437
# 2  b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670
# 3  c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871
# 4  d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125

我希望能夠編寫一個 dplyr 語句，其中我可以 select 列的一個子集並改變它們。 （我正在嘗試做一些類似於 using.SDcols in data.table 的事情）。

對於一個簡化的示例，這里是 function 我希望能夠編寫以添加用於偶數“X”列的總和和均值的列，同時保留所有其他列。 使用基數 R 的所需 output 是

(cols<-paste0("X", c(2,4)))
# [1] "X2" "X4"
cbind(dd,evensum=rowSums(dd[,cols]),evenmean=rowMeans(dd[,cols]))

#   id        X1        X2        X3        X4        X5   evensum  evenmean
# 1  a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 0.8761623 0.4380811
# 2  b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 1.6954878 0.8477439
# 3  c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 1.6775071 0.8387535
# 4  d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125 1.0957535 0.5478768

但我想使用類似 dplyr 的鏈來做同樣的事情。 在一般情況下，我希望能夠使用select()的任何輔助函數，例如starts_with 、 ends_with 、 matches等以及任何 function。這是我嘗試過的

library(dplyr)
partial_mutate1 <- function(x, colspec, ...) {
    select_(x, .dots=list(lazyeval::lazy(colspec))) %>% 
    transmute_(.dots=lazyeval::lazy_dots(...)) %>% 
    cbind(x,.)
}

dd %>% partial_mutate1(num_range("X", c(2,4)), 
    evensum=rowSums(.), evenmean=rowMeans(.))

但是，這會引發錯誤

Error in rowSums(.) : 'x' must be numeric

這似乎是因為. 似乎指的是整個 date.frame 而不是選定的子集。 （與rowSums(dd)相同的錯誤）。 但是，請注意，這會產生所需的 output

partial_mutate2 <- function(x, colspec) {
    select_(x, .dots=list(lazyeval::lazy(colspec))) %>% 
    transmute(evensum=rowSums(.), evenmean=rowMeans(.)) %>% 
    cbind(x,.)
}
dd %>% partial_mutate2(seq(2,ncol(dd),2))

我猜這是某種環境問題？ 關於如何將 arguments 傳遞給partial_mutate1以便. 會正確地從“select()-ed”數據集中獲取值嗎？

Answer 1

我是否遺漏了某些內容，或者是否按預期工作：

cols <- paste0("X", c(2,4))
dd %>% mutate(evensum = rowSums(.[cols]), evenmean = rowMeans(.[cols]))
#  id        X1        X2        X3        X4        X5   evensum  evenmean
#1  a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 0.8761623 0.4380811
#2  b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 1.6954878 0.8477439
#3  c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 1.6775071 0.8387535
#4  d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125 1.0957535 0.5478768

或者您是否專門尋找自定義功能來執行此操作？

不完全是你正在尋找的，但如果你想在管道內進行，你可以使用select mutate在mutate像這樣：

dd %>% mutate(xy = select(., num_range("X", c(2,4))) %>% rowSums)
#  id        X1        X2        X3        X4        X5        xy
#1  a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 0.8761623
#2  b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 1.6954878
#3  c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 1.6775071
#4  d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125 1.0957535

但是，如果要應用多個函數，則會更復雜一些。 您可以使用輔助函數（..未經過徹底測試..）：

f <- function(x, ...) {
  n <- nrow(x)
  x <- lapply(list(...), function(y) if (length(y) == 1L) rep(y, n) else y)
  matrix(unlist(x), nrow = n, byrow = FALSE)
}

然后像這樣應用它：

dd %>% mutate(xy = select(., num_range("X", c(2,4))) %>% f(., rowSums(.), max(.)))
#  id        X1        X2        X3        X4        X5      xy.1      xy.2
#1  a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 0.8761623 0.9888592
#2  b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 1.6954878 0.9888592
#3  c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 1.6775071 0.9888592
#4  d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125 1.0957535 0.9888592

Answer 2

使用dplyr的多列不可知方法：

dd %>% 
  select(-id) %>% 
  mutate(evensum = rowSums(.[,1:length(.[1,])%%2==0]), 
         evenmean = rowMeans(.[,1:length(.[1,])%%2==0])) %>% 
  cbind(id=dd[,1],.)

  id        X1        X2        X3        X4        X5   evensum  evenmean
1  a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 0.8761623 0.4380812
2  b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 1.6954878 0.8477439
3  c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 1.6775071 0.8387535
4  d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125 1.0957535 0.5478767

Answer 3

tidyr::nest()理解與dplyr::select()相同的選擇器語法，因此一種方法是將感興趣的列合並到一個數據列中，對該數據幀列執行必要的操作，並且不需要取回平面數據框：

library( tidyverse )
dd %>% nest( X2, X4, .key="Slice" ) %>%
    mutate( evensum = map(Slice, rowSums),
           evenmean = map(Slice, rowMeans),
           evensd = map(Slice, pmap_dbl, lift_vd(sd)) ) %>%
    unnest
#   id       X1    X3    X5 evensum evenmean evensd    X2    X4
# 1 a     0.602 0.687 0.447   0.876    0.438 0.100  0.367 0.509
# 2 b     0.195 0.831 0.965   1.70     0.848 0.200  0.989 0.707
# 3 c     0.966 0.105 0.141   1.68     0.839 0.0333 0.815 0.862
# 4 d     0.651 0.646 0.777   1.10     0.548 0.416  0.254 0.842

由於數據幀基本上是列表，因此這種方法自然適合使用purrr::pmap()函數系列將任意函數（例如上面的sd ）應用於任意一組列。

旁注：由於sd適用於矢量，我們使用purrr::lift_vd將其接口轉換為適合pmap ：

sd( c(0.367, 0.509) )        # 0.100
lift_vd(sd)( 0.367, .509 )   # 0.100

Answer 4

另一種選擇是使用rowwise()加c_across() 。 這種類型的操作不適用於rowSums或rowMeans ，但適用於常規的sum()和mean()函數。 c_across() function 將多列作為簡單向量返回。 它還接受任何 tidyselect 輔助函數。 所以例如你可以做

dd %>% 
  rowwise() %>% 
  mutate(
    evensum = sum( c_across(all_of(cols)) ), 
    evenmean = mean( c_across(all_of(cols)) )
)

Answer 5

在較新版本的dplyr中，您可以使用新的mutate_at()

功能

mutate_at(dd, vars(starts_with("X")), somefunction)

對列的子集執行 dplyr 變異

問題描述

5 個解決方案

解決方案1
9 已采納 2015-02-26 19:58:05

解決方案2
3 2015-02-26 19:59:51

解決方案3
1 2019-01-10 23:59:41

解決方案4
0 2022-04-08 04:54:59

解決方案5
-1 2019-04-04 09:27:14

對列的子集執行 dplyr 變異

問題描述

5 個解決方案

解決方案1 9 已采納 2015-02-26 19:58:05

解決方案2 3 2015-02-26 19:59:51

解決方案3 1 2019-01-10 23:59:41

解決方案4 0 2022-04-08 04:54:59

解決方案5 -1 2019-04-04 09:27:14

解決方案1
9 已采納 2015-02-26 19:58:05

解決方案2
3 2015-02-26 19:59:51

解決方案3
1 2019-01-10 23:59:41

解決方案4
0 2022-04-08 04:54:59

解決方案5
-1 2019-04-04 09:27:14