[英]dplyr mutate on range of columns
我想对数据帧上的一系列列进行操作。 我们说这个数据集是:
set.seed(15)
df <- data.frame(id=letters[1:10], matrix(runif(5*10), nrow=5)) %>% dplyr::rename(O6 = X7)
我认为我想要实现的目标非常明显:
df %>% rowwise() %>% mutate(minval_X3_X8 = min(X3:X8))
即获得结果:
df %>% rowwise() %>% mutate(minval_X3_X8 = min(X3, X4, X5, O6, X7, X8))
我最初尝试X3:X8没有给出任何错误信息,所以我想知道:
1.使用dplyr实现所需输出的最佳方法是什么(我从列X3到X8得到最小值/最大值/平均值等值)
2.使用X3:X8时我实际得到了什么
非常感谢 !
PS。 如果对此的解决方案还有可能做到这一点,那将是很好的:
df %>% rowwise() %>% mutate(minval_all_but_ex_rownames = min(-id))
dplyr::select
可以使用X3:X7
的范围符号,但不能使用其他函数。 如果你可以在mutate
之外工作,试试这个:
df$minval_X3_X8 <- do.call(pmin, select(df, X3:X8))
df
# id X1 X2 X3 X4 X5 O6 X7 X8 X9 X10 minval_X3_X8
# 1 a 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587 0.6578783 0.9152619 0.4291725 0.10466936
# 2 b 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427 0.1215491 0.4574306 0.3302786 0.10697354
# 3 c 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694 0.5159349 0.9210739 0.7528325 0.14838386
# 4 d 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759 0.3016811 0.2591188 0.8438981 0.05800106
# 5 e 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062 0.7603278 0.3437781 0.0108724 0.47636970
# 6 f 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587 0.6578783 0.9152619 0.4291725 0.10466936
# 7 g 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427 0.1215491 0.4574306 0.3302786 0.10697354
# 8 h 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694 0.5159349 0.9210739 0.7528325 0.14838386
# 9 i 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759 0.3016811 0.2591188 0.8438981 0.05800106
# 10 j 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062 0.7603278 0.3437781 0.0108724 0.47636970
编辑 :正如@Moody_Mudskipper建议的那样,这可以包含在mutate
:
df %>% mutate(minval_X3_X8 = do.call(pmin, select(., X3:X8)))
# same output as above
但是应该谨慎使用,因为它的使用并不尊重数据的group
。 我定期使用这个下一个方法来看看我的函数在调用内部(可选 - group
编辑) mutate
时“看到”。 这里的mymin
函数绝对没什么用处,只提供一个mid- mutate
浏览:
mymin <- function(...) { browser(); 1; }
这个例子:
df %>% rowwise() %>% mutate(minval_X3_X8 = do.call(mymin, select(., X3:X8)))
# Called from: (function (...)
# {
# browser()
# 1
# }) ...snip...
# Browse[1]>
# debug at #1: [1] 1
# Browse[2]>
如果我们查看函数的参数,我们将看到它提供的内容:
list(...)
# $X3
# [1] 0.1046694 0.6461509 0.5090904 0.7066286 0.8623137 0.1046694 0.6461509 0.5090904 0.7066286
# [10] 0.8623137
# $X4
# [1] 0.8417851 0.4474437 0.9646670 0.1411871 0.7767125 0.8417851 0.4474437 0.9646670 0.1411871
# [10] 0.7767125
# $X5
# [1] 0.80372740 0.79334595 0.35756312 0.05800106 0.56574614 0.80372740 0.79334595 0.35756312
# [9] 0.05800106 0.56574614
# $O6
# [1] 0.6590069 0.1069735 0.1483839 0.9277570 0.4763697 0.6590069 0.1069735 0.1483839 0.9277570
# [10] 0.4763697
# $X7
# [1] 0.4985587 0.2567427 0.4916694 0.1174759 0.5128062 0.4985587 0.2567427 0.4916694 0.1174759
# [10] 0.5128062
# $X8
# [1] 0.6578783 0.1215491 0.5159349 0.3016811 0.7603278 0.6578783 0.1215491 0.5159349 0.3016811
# [10] 0.7603278
如果这对rowwise
组分组表示尊重,我本来希望看到这样的东西,只代表一行数据:
lapply(list(...), `[`, 1)
# $X3
# [1] 0.1046694
# $X4
# [1] 0.8417851
# $X5
# [1] 0.8037274
# $O6
# [1] 0.6590069
# $X7
# [1] 0.4985587
# $X8
# [1] 0.6578783
有了tidyverse
,我们可以做到
1)使用reduce
和pmin
library(tidyverse)
df %>%
select(X3:X8) %>%
reduce(pmin) %>%
mutate(df, minval_X3_X8 = .)
# id X1 X2 X3 X4 X5 X6 O6
#1 a 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587
#2 b 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427
#3 c 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694
#4 d 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759
#5 e 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062
#6 f 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587
#7 g 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427
#8 h 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694
#9 i 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759
#10 j 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062
# X8 X9 X10 minval_X3_X8
#1 0.6578783 0.9152619 0.4291725 0.10466936
#2 0.1215491 0.4574306 0.3302786 0.10697354
#3 0.5159349 0.9210739 0.7528325 0.14838386
#4 0.3016811 0.2591188 0.8438981 0.05800106
#5 0.7603278 0.3437781 0.0108724 0.47636970
#6 0.6578783 0.9152619 0.4291725 0.10466936
#7 0.1215491 0.4574306 0.3302786 0.10697354
#8 0.5159349 0.9210739 0.7528325 0.14838386
#9 0.3016811 0.2591188 0.8438981 0.05800106
#10 0.7603278 0.3437781 0.0108724 0.47636970
2)或者将列名转换为符号并进行评估
df %>%
mutate(minval_X3_X8 = pmin(!!! rlang::syms(names(.)[3:8])))
关于你的问题(1)问题中的代码表现如下:
df %>% rowwise() %>% mutate(minval_X3_X8 = min(X3))
要不就
df %>% rowwise() %>% mutate(minval_X3_X8 = X3)
对于下面(1)中的问题(2),我们重新设计您的解决方案,以便它可以工作,然后提供一些其他的dplyr和基础解决方案。 在下面的解决方案中,我们显示了min
和max
的结果。 通过添加参数来mutate
或summarize
或扩展aggregate
函数,可以通过显而易见的方式扩展这些统计数据,例如mean
, sd
, median
等。 请注意,下面的解决方案都使用简单的min
, max
等,这样可以更容易地扩展到其他统计信息。 使用pmin
而不是min
解决方案可能难以扩展,因为对于您想要的每个统计数据, pmin
可能没有准备好的对应物。
1)修改有问题的代码要重做你的解决方案,我们可以使用do
。 在do
一个点会参照当前组,在这种情况下,当前行,但是这将是一个列表,以便转换回数据帧。 请注意,我们在do
使用{...}
来防止{...}
的点以列表的形式引用当前行,而是引用data.frame(.)
。
df %>%
rowwise %>%
do(as.data.frame(.) %>% {
subs <- select(., X3:X8)
mutate(., Min = subs %>% min,
Max = subs %>% max)
} ) %>%
ungroup
赠送:
# A tibble: 10 x 13
id X1 X2 X3 X4 X5 X6 O6 X8 X9 X10 Min Max
* <fct> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 a 0.602 0.989 0.105 0.842 0.804 0.659 0.499 0.658 0.915 0.429 0.105 0.842
2 b 0.195 0.815 0.646 0.447 0.793 0.107 0.257 0.122 0.457 0.330 0.107 0.793
3 c 0.966 0.254 0.509 0.965 0.358 0.148 0.492 0.516 0.921 0.753 0.148 0.965
4 d 0.651 0.687 0.707 0.141 0.0580 0.928 0.117 0.302 0.259 0.844 0.0580 0.928
5 e 0.367 0.831 0.862 0.777 0.566 0.476 0.513 0.760 0.344 0.0109 0.476 0.862
6 f 0.602 0.989 0.105 0.842 0.804 0.659 0.499 0.658 0.915 0.429 0.105 0.842
7 g 0.195 0.815 0.646 0.447 0.793 0.107 0.257 0.122 0.457 0.330 0.107 0.793
8 h 0.966 0.254 0.509 0.965 0.358 0.148 0.492 0.516 0.921 0.753 0.148 0.965
9 i 0.651 0.687 0.707 0.141 0.0580 0.928 0.117 0.302 0.259 0.844 0.0580 0.928
10 j 0.367 0.831 0.862 0.777 0.566 0.476 0.513 0.760 0.344 0.0109 0.476 0.862
2)申请使用apply
:
df %>% {
Apply <- function(fun) select(., X3:X8) %>% apply(1, fun)
mutate(., Min = Apply(min), Max = Apply(max))
}
2a)基R或仅基R:
Apply <- function(fun) apply(subset(df, select = X3:X8), 1, fun)
transform(df, Min = Apply(min), Max = Apply(max))
3)dplyr / tidyr另一种可能性是dplyr与tidyr重塑df
到long form,以长形式执行计算然后加入到df
:
library(dplyr)
library(tidyr)
df %>%
left_join({
gather(., key, value, -id) %>%
filter(between(key, "X3", "X8")) %>%
group_by(id) %>%
summarize(Min = min(value), Max = max(value)) %>%
ungroup
})
3a)基本R (3)可以在R base R中使用reshape
来创建长格式数据帧, subset
将其缩小为X3:X8并合并以执行连接。
long <- reshape(df, dir = "long", varying = list(names(df)[-1]),
times = names(df)[-1], v.names = "min")
subs <- subset(long, time >= "X3" & time <= "X8")
merge(df, aggregate(min ~ id, subs, function(x) c(Min = min(x), Max = max(x))))
4)dplyr / purrr除了我们使用purrr::pmap_dbl
而不是apply
之外,这个类似于(2)。
library(dplyr)
library(purrr)
df %>% {
Pmap <- function(fun) select(., X3:X8) %>% pmap_dbl(~ fun(c(...)))
mutate(., Min = Pmap(min), Max = Pmap(max))
}
做了一些改进并添加了其他解决方案。
你也可以使用purrr::map
和transpose
df %>% mutate(minval_X3_X8 = map(transpose(select(., X3:X8)), ~min(as.numeric(.x))))
#id X1 X2 X3 X4 X5 X6 O6
#1 a 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587
#2 b 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427
#3 c 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694
#4 d 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759
#5 e 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062
#6 f 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587
#7 g 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427
#8 h 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694
#9 i 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759
#10 j 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062
# X8 X9 X10 minval_X3_X8
#1 0.6578783 0.9152619 0.4291725 0.1046694
#2 0.1215491 0.4574306 0.3302786 0.1069735
#3 0.5159349 0.9210739 0.7528325 0.1483839
#4 0.3016811 0.2591188 0.8438981 0.05800106
#5 0.7603278 0.3437781 0.0108724 0.4763697
#6 0.6578783 0.9152619 0.4291725 0.1046694
#7 0.1215491 0.4574306 0.3302786 0.1069735
#8 0.5159349 0.9210739 0.7528325 0.1483839
#9 0.3016811 0.2591188 0.8438981 0.05800106
#10 0.7603278 0.3437781 0.0108724 0.4763697
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.