dplyr - 一次重新编码几列

Question

假设您有一个数据框，其中包含名为 X1 - X30 和 Y1 - Y30 的变量。 这些变量中的每一个都包含整数 1 - 5。我们希望像这样重新编码一些以 X 开头的变量：

df %<>%
   mutate_at(vars(starts_with("X") & 
                  ends_with("5", "8", "16", "22", "28")), 
             recode, "1" = 5, "2" = 4, "4" = 2, "5" = 1)

但是，这将返回以下错误：

Error in UseMethod("recode") : 
  no applicable method for 'recode' applied to an object of class "c('tbl_df', 'tbl', 'data.frame')"

这是因为 recode 需要将向量作为参数。 那么有什么方法可以绕过呢？

Answer 1

mutate_at完全设计为采用将向量作为参数的函数，例如recode ，这不是问题。 您的错误只是因为您没有使用 select 助手作为与&链接的逻辑调用，而是使用,在vars()链接它们。

此外，如果你想要你的目标，你会想要使用matches来选择仅以 X 开头并以某些数字结尾的列。

library(dplyr)

set.seed(123)
df <- data.frame("X1" = sample(1:5, 10, TRUE),
                 "X2" = sample(1:5, 10, TRUE),
                 "X3" = sample(1:5, 10, TRUE)) 
df
#>    X1 X2 X3
#> 1   3  5  2
#> 2   3  3  1
#> 3   2  3  3
#> 4   2  1  4
#> 5   3  4  1
#> 6   5  1  3
#> 7   4  1  5
#> 8   1  5  4
#> 9   2  3  2
#> 10  3  2  5

df %>%
  mutate_at(vars(matches("^X.*1|2$")),
            recode, "1" = 5, "2" = 4, "3" = 3,"4" = 2, "5" = 1)
#>    X1 X2 X3
#> 1   3  1  2
#> 2   3  3  1
#> 3   4  3  3
#> 4   4  5  4
#> 5   3  2  1
#> 6   1  5  3
#> 7   2  5  5
#> 8   5  1  4
#> 9   4  3  2
#> 10  3  4  5

Answer 2

添加2021更新解决方案，包括across功能取代了mutate_ *功能以及正则表达式和tidy_select替代品

library(dplyr)

set.seed(123)
(df <- data.frame("X1" = sample(1:5, 10, TRUE),
                 "X2" = sample(1:5, 10, TRUE),
                 "X3" = sample(1:5, 10, TRUE)))
#>    X1 X2 X3
#> 1   3  5  2
#> 2   3  3  1
#> 3   2  3  3
#> 4   2  1  4
#> 5   3  4  1
#> 6   5  1  3
#> 7   4  1  5
#> 8   1  5  4
#> 9   2  3  2
#> 10  3  2  5

使用正则表达式

df %>%
      mutate(across(matches("^X.*1|2$"),
                recode, "1" = 5, "2" = 4, "3" = 3,"4" = 2, "5" = 1))

#>    X1 X2 X3
#> 1   3  1  2
#> 2   3  3  1
#> 3   4  3  3
#> 4   4  5  4
#> 5   3  2  1
#> 6   1  5  3
#> 7   2  5  5
#> 8   5  1  4
#> 9   4  3  2
#> 10  3  4  5

没有正则表达式

df %>%
  mutate(across((starts_with("X") & ends_with(as.character(1:2))),
                recode, "1" = 5, "2" = 4, "3" = 3,"4" = 2, "5" = 1))

    #>    X1 X2 X3
    #> 1   3  1  2
    #> 2   3  3  1
    #> 3   4  3  3
    #> 4   4  5  4
    #> 5   3  2  1
    #> 6   1  5  3
    #> 7   2  5  5
    #> 8   5  1  4
    #> 9   4  3  2
    #> 10  3  4  5

Answer 3

一种选择是对列名进行子字符串化，然后执行mutate_if ：

set.seed(111)
df = data.frame(matrix(round(runif(60*4,min=1,max=5)),ncol=60))
colnames(df) = c(paste0("X",1:30),paste0("Y",1:30))

start_X = substr(colnames(df),1,1) == "X"
ends_w = substr(colnames(df),2,nchar(colnames(df))) %in% c("5", "8", "16", "22", "28")

df %>% 
mutate_if(start_X & ends_w,
recode, "1" = 5, "2" = 4, "4" = 2, "5" = 1) %>%
select(c("X5","X8","X16","X22","X28"))

  X5 X8 X16 X22 X28
1  4  2   5   5   3
2  1  3   3   4   1
3  4  5   4   2   4
4  3  3   4   2   2

df %>% select(c("X5","X8","X16","X22","X28"))
  X5 X8 X16 X22 X28
1  2  4   1   1   3
2  5  3   3   2   5
3  2  1   2   4   2
4  3  3   2   4   4

dplyr - 一次重新编码几列

问题描述

3 个解决方案

解决方案1
3 已采纳 2020-02-16 09:52:10

解决方案2
1 2021-02-26 21:16:39

使用正则表达式

没有正则表达式

解决方案3
0 2020-02-16 19:29:58

dplyr - 一次重新编码几列

问题描述

3 个解决方案

解决方案1 3 已采纳 2020-02-16 09:52:10

解决方案2 1 2021-02-26 21:16:39

使用正则表达式

没有正则表达式

解决方案3 0 2020-02-16 19:29:58

解决方案1
3 已采纳 2020-02-16 09:52:10

解决方案2
1 2021-02-26 21:16:39

解决方案3
0 2020-02-16 19:29:58