dplyr在列范圍上發生變異

Question

我想對數據幀上的一系列列進行操作。 我們說這個數據集是：

set.seed(15)
df <- data.frame(id=letters[1:10], matrix(runif(5*10), nrow=5)) %>% dplyr::rename(O6 = X7)

我認為我想要實現的目標非常明顯：

df %>% rowwise() %>% mutate(minval_X3_X8 = min(X3:X8))

即獲得結果：

df %>% rowwise() %>% mutate(minval_X3_X8 = min(X3, X4, X5, O6, X7, X8))

我最初嘗試X3：X8沒有給出任何錯誤信息，所以我想知道：
1.使用dplyr實現所需輸出的最佳方法是什么（我從列X3到X8得到最小值/最大值/平均值等值）
2.使用X3：X8時我實際得到了什么

非常感謝！

PS。 如果對此的解決方案還有可能做到這一點，那將是很好的：

df %>% rowwise() %>% mutate(minval_all_but_ex_rownames = min(-id))

Answer 1

dplyr::select可以使用X3:X7的范圍符號，但不能使用其他函數。 如果你可以在mutate之外工作，試試這個：

df$minval_X3_X8 <- do.call(pmin, select(df, X3:X8))
df
#    id        X1        X2        X3        X4         X5        O6        X7        X8        X9       X10 minval_X3_X8
# 1   a 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587 0.6578783 0.9152619 0.4291725   0.10466936
# 2   b 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427 0.1215491 0.4574306 0.3302786   0.10697354
# 3   c 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694 0.5159349 0.9210739 0.7528325   0.14838386
# 4   d 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759 0.3016811 0.2591188 0.8438981   0.05800106
# 5   e 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062 0.7603278 0.3437781 0.0108724   0.47636970
# 6   f 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587 0.6578783 0.9152619 0.4291725   0.10466936
# 7   g 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427 0.1215491 0.4574306 0.3302786   0.10697354
# 8   h 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694 0.5159349 0.9210739 0.7528325   0.14838386
# 9   i 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759 0.3016811 0.2591188 0.8438981   0.05800106
# 10  j 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062 0.7603278 0.3437781 0.0108724   0.47636970

編輯：正如@Moody_Mudskipper建議的那樣，這可以包含在mutate ：

df %>% mutate(minval_X3_X8 = do.call(pmin, select(., X3:X8)))
# same output as above

但是應該謹慎使用，因為它的使用並不尊重數據的group 。 我定期使用這個下一個方法來看看我的函數在調用內部（可選 - group編輯） mutate時“看到”。 這里的mymin函數絕對沒什么用處，只提供一個mid- mutate瀏覽：

mymin <- function(...) { browser(); 1; }

這個例子：

df %>% rowwise() %>% mutate(minval_X3_X8 = do.call(mymin, select(., X3:X8)))
# Called from: (function (...) 
# {
#     browser()
#     1
# }) ...snip...
# Browse[1]> 
# debug at #1: [1] 1
# Browse[2]>

如果我們查看函數的參數，我們將看到它提供的內容：

list(...)
# $X3
#  [1] 0.1046694 0.6461509 0.5090904 0.7066286 0.8623137 0.1046694 0.6461509 0.5090904 0.7066286
# [10] 0.8623137
# $X4
#  [1] 0.8417851 0.4474437 0.9646670 0.1411871 0.7767125 0.8417851 0.4474437 0.9646670 0.1411871
# [10] 0.7767125
# $X5
#  [1] 0.80372740 0.79334595 0.35756312 0.05800106 0.56574614 0.80372740 0.79334595 0.35756312
#  [9] 0.05800106 0.56574614
# $O6
#  [1] 0.6590069 0.1069735 0.1483839 0.9277570 0.4763697 0.6590069 0.1069735 0.1483839 0.9277570
# [10] 0.4763697
# $X7
#  [1] 0.4985587 0.2567427 0.4916694 0.1174759 0.5128062 0.4985587 0.2567427 0.4916694 0.1174759
# [10] 0.5128062
# $X8
#  [1] 0.6578783 0.1215491 0.5159349 0.3016811 0.7603278 0.6578783 0.1215491 0.5159349 0.3016811
# [10] 0.7603278

如果這對rowwise組分組表示尊重，我本來希望看到這樣的東西，只代表一行數據：

lapply(list(...), `[`, 1)
# $X3
# [1] 0.1046694
# $X4
# [1] 0.8417851
# $X5
# [1] 0.8037274
# $O6
# [1] 0.6590069
# $X7
# [1] 0.4985587
# $X8
# [1] 0.6578783

Answer 2

有了tidyverse ，我們可以做到

1）使用reduce和pmin

library(tidyverse)
df %>%
  select(X3:X8) %>% 
  reduce(pmin) %>% 
  mutate(df, minval_X3_X8 = .)
# id        X1        X2        X3        X4         X5        X6        O6
#1   a 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587
#2   b 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427
#3   c 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694
#4   d 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759
#5   e 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062
#6   f 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587
#7   g 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427
#8   h 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694
#9   i 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759
#10  j 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062
#          X8        X9       X10 minval_X3_X8
#1  0.6578783 0.9152619 0.4291725   0.10466936
#2  0.1215491 0.4574306 0.3302786   0.10697354
#3  0.5159349 0.9210739 0.7528325   0.14838386
#4  0.3016811 0.2591188 0.8438981   0.05800106
#5  0.7603278 0.3437781 0.0108724   0.47636970
#6  0.6578783 0.9152619 0.4291725   0.10466936
#7  0.1215491 0.4574306 0.3302786   0.10697354
#8  0.5159349 0.9210739 0.7528325   0.14838386
#9  0.3016811 0.2591188 0.8438981   0.05800106
#10 0.7603278 0.3437781 0.0108724   0.47636970

2）或者將列名轉換為符號並進行評估

df %>% 
   mutate(minval_X3_X8 = pmin(!!! rlang::syms(names(.)[3:8])))

Answer 3

關於你的問題（1）問題中的代碼表現如下：

df %>% rowwise() %>% mutate(minval_X3_X8 = min(X3))

要不就

df %>% rowwise() %>% mutate(minval_X3_X8 = X3)

對於下面（1）中的問題（2），我們重新設計您的解決方案，以便它可以工作，然后提供一些其他的dplyr和基礎解決方案。 在下面的解決方案中，我們顯示了min和max的結果。 通過添加參數來mutate或summarize或擴展aggregate函數，可以通過顯而易見的方式擴展這些統計數據，例如mean ， sd ， median等。 請注意，下面的解決方案都使用簡單的min ， max等，這樣可以更容易地擴展到其他統計信息。 使用pmin而不是min解決方案可能難以擴展，因為對於您想要的每個統計數據， pmin可能沒有准備好的對應物。

1）修改有問題的代碼要重做你的解決方案，我們可以使用do 。 在do一個點會參照當前組，在這種情況下，當前行，但是這將是一個列表，以便轉換回數據幀。 請注意，我們在do使用{...}來防止{...}的點以列表的形式引用當前行，而是引用data.frame(.) 。

df %>% 
   rowwise %>% 
   do(as.data.frame(.) %>% { 
      subs <- select(., X3:X8)
      mutate(., Min = subs %>% min,
                Max = subs %>% max) 
      } ) %>%
   ungroup

贈送：

# A tibble: 10 x 13
   id       X1    X2    X3    X4     X5    X6    O6    X8    X9    X10    Min   Max
 * <fct> <dbl> <dbl> <dbl> <dbl>  <dbl> <dbl> <dbl> <dbl> <dbl>  <dbl>  <dbl> <dbl>
 1 a     0.602 0.989 0.105 0.842 0.804  0.659 0.499 0.658 0.915 0.429  0.105  0.842
 2 b     0.195 0.815 0.646 0.447 0.793  0.107 0.257 0.122 0.457 0.330  0.107  0.793
 3 c     0.966 0.254 0.509 0.965 0.358  0.148 0.492 0.516 0.921 0.753  0.148  0.965
 4 d     0.651 0.687 0.707 0.141 0.0580 0.928 0.117 0.302 0.259 0.844  0.0580 0.928
 5 e     0.367 0.831 0.862 0.777 0.566  0.476 0.513 0.760 0.344 0.0109 0.476  0.862
 6 f     0.602 0.989 0.105 0.842 0.804  0.659 0.499 0.658 0.915 0.429  0.105  0.842
 7 g     0.195 0.815 0.646 0.447 0.793  0.107 0.257 0.122 0.457 0.330  0.107  0.793
 8 h     0.966 0.254 0.509 0.965 0.358  0.148 0.492 0.516 0.921 0.753  0.148  0.965
 9 i     0.651 0.687 0.707 0.141 0.0580 0.928 0.117 0.302 0.259 0.844  0.0580 0.928
10 j     0.367 0.831 0.862 0.777 0.566  0.476 0.513 0.760 0.344 0.0109 0.476  0.862

2）申請使用apply ：

df %>% {
  Apply <- function(fun) select(., X3:X8) %>% apply(1, fun)
  mutate(., Min = Apply(min), Max = Apply(max))
}

2a）基R或僅基R：

Apply <- function(fun) apply(subset(df, select = X3:X8), 1, fun)
transform(df, Min = Apply(min), Max = Apply(max))

3）dplyr / tidyr另一種可能性是dplyr與tidyr重塑df到long form，以長形式執行計算然后加入到df ：

library(dplyr)
library(tidyr)

df %>%
   left_join({
     gather(., key, value, -id) %>%
     filter(between(key, "X3", "X8")) %>%
     group_by(id) %>%
     summarize(Min = min(value), Max = max(value)) %>%
     ungroup
   })

3a）基本R （3）可以在R base R中使用reshape來創建長格式數據幀， subset將其縮小為X3：X8並合並以執行連接。

long <- reshape(df, dir = "long", varying = list(names(df)[-1]), 
  times = names(df)[-1], v.names = "min")
subs <- subset(long, time >= "X3" & time <= "X8")
merge(df, aggregate(min ~ id, subs, function(x) c(Min = min(x), Max = max(x))))

4）dplyr / purrr除了我們使用purrr::pmap_dbl而不是apply之外，這個類似於（2）。

library(dplyr)
library(purrr)

df %>% {
  Pmap <- function(fun) select(., X3:X8) %>% pmap_dbl(~ fun(c(...)))
  mutate(., Min = Pmap(min), Max = Pmap(max))
}

更新

做了一些改進並添加了其他解決方案。

Answer 4

你也可以使用purrr::map和transpose

df %>% mutate(minval_X3_X8 = map(transpose(select(., X3:X8)), ~min(as.numeric(.x))))
#id        X1        X2        X3        X4         X5        X6        O6
#1   a 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587
#2   b 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427
#3   c 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694
#4   d 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759
#5   e 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062
#6   f 0.6021140 0.9888592 0.1046694 0.8417851 0.80372740 0.6590069 0.4985587
#7   g 0.1950439 0.8151934 0.6461509 0.4474437 0.79334595 0.1069735 0.2567427
#8   h 0.9664587 0.2539684 0.5090904 0.9646670 0.35756312 0.1483839 0.4916694
#9   i 0.6509055 0.6872308 0.7066286 0.1411871 0.05800106 0.9277570 0.1174759
#10  j 0.3670719 0.8314290 0.8623137 0.7767125 0.56574614 0.4763697 0.5128062
#       X8        X9       X10 minval_X3_X8
#1  0.6578783 0.9152619 0.4291725    0.1046694
#2  0.1215491 0.4574306 0.3302786    0.1069735
#3  0.5159349 0.9210739 0.7528325    0.1483839
#4  0.3016811 0.2591188 0.8438981   0.05800106
#5  0.7603278 0.3437781 0.0108724    0.4763697
#6  0.6578783 0.9152619 0.4291725    0.1046694
#7  0.1215491 0.4574306 0.3302786    0.1069735
#8  0.5159349 0.9210739 0.7528325    0.1483839
#9  0.3016811 0.2591188 0.8438981   0.05800106
#10 0.7603278 0.3437781 0.0108724    0.4763697

dplyr在列范圍上發生變異

問題描述

4 個解決方案

解決方案1
4 2018-07-27 01:04:04

解決方案2
4 2018-07-27 01:11:28

解決方案3
3 已采納 2018-07-27 01:16:05

更新

解決方案4
2 2018-07-27 01:19:58

dplyr在列范圍上發生變異

問題描述

4 個解決方案

解決方案1 4 2018-07-27 01:04:04

解決方案2 4 2018-07-27 01:11:28

解決方案3 3 已采納 2018-07-27 01:16:05

更新

解決方案4 2 2018-07-27 01:19:58

解決方案1
4 2018-07-27 01:04:04

解決方案2
4 2018-07-27 01:11:28

解決方案3
3 已采納 2018-07-27 01:16:05

解決方案4
2 2018-07-27 01:19:58