[英]Performing dplyr mutate on subset of columns
我有一個這樣的數據框(真實數據集有更多的行和列)
set.seed(15)
dd <- data.frame(id=letters[1:4], matrix(runif(5*4), nrow=4))
# id X1 X2 X3 X4 X5
# 1 a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437
# 2 b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670
# 3 c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871
# 4 d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125
我希望能夠編寫一個 dplyr 語句,其中我可以 select 列的一個子集並改變它們。 (我正在嘗試做一些類似於 using.SDcols in data.table 的事情)。
對於一個簡化的示例,這里是 function 我希望能夠編寫以添加用於偶數“X”列的總和和均值的列,同時保留所有其他列。 使用基數 R 的所需 output 是
(cols<-paste0("X", c(2,4)))
# [1] "X2" "X4"
cbind(dd,evensum=rowSums(dd[,cols]),evenmean=rowMeans(dd[,cols]))
# id X1 X2 X3 X4 X5 evensum evenmean
# 1 a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 0.8761623 0.4380811
# 2 b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 1.6954878 0.8477439
# 3 c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 1.6775071 0.8387535
# 4 d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125 1.0957535 0.5478768
但我想使用類似 dplyr 的鏈來做同樣的事情。 在一般情況下,我希望能夠使用select()
的任何輔助函數,例如starts_with
、 ends_with
、 matches
等以及任何 function。這是我嘗試過的
library(dplyr)
partial_mutate1 <- function(x, colspec, ...) {
select_(x, .dots=list(lazyeval::lazy(colspec))) %>%
transmute_(.dots=lazyeval::lazy_dots(...)) %>%
cbind(x,.)
}
dd %>% partial_mutate1(num_range("X", c(2,4)),
evensum=rowSums(.), evenmean=rowMeans(.))
但是,這會引發錯誤
Error in rowSums(.) : 'x' must be numeric
這似乎是因為.
似乎指的是整個 date.frame 而不是選定的子集。 (與rowSums(dd)
相同的錯誤)。 但是,請注意,這會產生所需的 output
partial_mutate2 <- function(x, colspec) {
select_(x, .dots=list(lazyeval::lazy(colspec))) %>%
transmute(evensum=rowSums(.), evenmean=rowMeans(.)) %>%
cbind(x,.)
}
dd %>% partial_mutate2(seq(2,ncol(dd),2))
我猜這是某種環境問題? 關於如何將 arguments 傳遞給partial_mutate1
以便.
會正確地從“select()-ed”數據集中獲取值嗎?
我是否遺漏了某些內容,或者是否按預期工作:
cols <- paste0("X", c(2,4))
dd %>% mutate(evensum = rowSums(.[cols]), evenmean = rowMeans(.[cols]))
# id X1 X2 X3 X4 X5 evensum evenmean
#1 a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 0.8761623 0.4380811
#2 b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 1.6954878 0.8477439
#3 c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 1.6775071 0.8387535
#4 d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125 1.0957535 0.5478768
或者您是否專門尋找自定義功能來執行此操作?
不完全是你正在尋找的,但如果你想在管道內進行,你可以使用select
mutate
在mutate
像這樣:
dd %>% mutate(xy = select(., num_range("X", c(2,4))) %>% rowSums)
# id X1 X2 X3 X4 X5 xy
#1 a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 0.8761623
#2 b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 1.6954878
#3 c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 1.6775071
#4 d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125 1.0957535
但是,如果要應用多個函數,則會更復雜一些。 您可以使用輔助函數(..未經過徹底測試..):
f <- function(x, ...) {
n <- nrow(x)
x <- lapply(list(...), function(y) if (length(y) == 1L) rep(y, n) else y)
matrix(unlist(x), nrow = n, byrow = FALSE)
}
然后像這樣應用它:
dd %>% mutate(xy = select(., num_range("X", c(2,4))) %>% f(., rowSums(.), max(.)))
# id X1 X2 X3 X4 X5 xy.1 xy.2
#1 a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 0.8761623 0.9888592
#2 b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 1.6954878 0.9888592
#3 c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 1.6775071 0.9888592
#4 d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125 1.0957535 0.9888592
使用dplyr的多列不可知方法:
dd %>%
select(-id) %>%
mutate(evensum = rowSums(.[,1:length(.[1,])%%2==0]),
evenmean = rowMeans(.[,1:length(.[1,])%%2==0])) %>%
cbind(id=dd[,1],.)
id X1 X2 X3 X4 X5 evensum evenmean
1 a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 0.8761623 0.4380812
2 b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 1.6954878 0.8477439
3 c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 1.6775071 0.8387535
4 d 0.6509055 0.2539684 0.6461509 0.8417851 0.7767125 1.0957535 0.5478767
tidyr::nest()
理解與dplyr::select()
相同的選擇器語法,因此一種方法是將感興趣的列合並到一個數據列中,對該數據幀列執行必要的操作,並且不需要取回平面數據框:
library( tidyverse )
dd %>% nest( X2, X4, .key="Slice" ) %>%
mutate( evensum = map(Slice, rowSums),
evenmean = map(Slice, rowMeans),
evensd = map(Slice, pmap_dbl, lift_vd(sd)) ) %>%
unnest
# id X1 X3 X5 evensum evenmean evensd X2 X4
# 1 a 0.602 0.687 0.447 0.876 0.438 0.100 0.367 0.509
# 2 b 0.195 0.831 0.965 1.70 0.848 0.200 0.989 0.707
# 3 c 0.966 0.105 0.141 1.68 0.839 0.0333 0.815 0.862
# 4 d 0.651 0.646 0.777 1.10 0.548 0.416 0.254 0.842
由於數據幀基本上是列表,因此這種方法自然適合使用purrr::pmap()
函數系列將任意函數(例如上面的sd
)應用於任意一組列。
旁注:由於sd
適用於矢量,我們使用purrr::lift_vd
將其接口轉換為適合pmap
:
sd( c(0.367, 0.509) ) # 0.100
lift_vd(sd)( 0.367, .509 ) # 0.100
另一種選擇是使用rowwise()
加c_across()
。 這種類型的操作不適用於rowSums
或rowMeans
,但適用於常規的sum()
和mean()
函數。 c_across()
function 將多列作為簡單向量返回。 它還接受任何 tidyselect 輔助函數。 所以例如你可以做
dd %>%
rowwise() %>%
mutate(
evensum = sum( c_across(all_of(cols)) ),
evenmean = mean( c_across(all_of(cols)) )
)
在較新版本的dplyr中,您可以使用新的mutate_at()
功能
mutate_at(dd, vars(starts_with("X")), somefunction)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.