使用 dplyr::mutate(across()) 将多列应用于自定义函数

Question

df

a = c("aa", "bb", "cc", "bb", "bb", "cc","bb", "bb", "cc", "cc", "bb", "cc", "bb", "bb", "cc","bb", "bb", "cc", "cc", "bb","bb") 
b = c("aa", "bb", "cc", "bb", "bb", "cc","bb", "bb", "cc", "cc", "bb", "cc", "bb", "bb", "cc","bb", "bb", "cc", "cc", "bb","bb") 
c = c("aa", "aa", "aa", "bb", "bb", "cc","bb", "bb", "cc", "cc", "bb", "cc", "bb", "bb", "cc","bb", "bb", "cc", "cc", "bb","bb") 
d = c(1, 1, 2, 2, 3, 3, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 1, 1, 1, 1, 1)
df = data.frame(a,b,c,d)

列名：

cols <- c("a","b","c")

功能：

rare_label <- function(x){
  freq = prop.table(table(unlist(x)))
  make_rare = names(freq)[freq < 0.20]
  lapply(x,
         function(x) {
           replace(x, x %in% make_rare, "Rare")
         })}

希望使用dplyr::mutate(across())评估 a、b、c 中组合的所有值的比例，然后将比例低于 20% 的任何类别更改为“稀有”。

输出：

     a    b    c
    Rare Rare Rare
    bb   bb   Rare
    cc   cc   Rare
    bb   bb   bb
    bb   bb   bb
    cc   cc   cc
    bb   bb   bb
    .    .    .
    .    .    .
    .    .    .

使用下面的代码会引发错误，我不知道为什么。

df %<>%
  mutate(across(where(cols), ~rare_label(.)

错误：意外符号：“ mutate(across(where(cols), ~rare_label(.) View”）

Answer 1

一种选择可能是：

df %>%
 mutate(across(all_of(cols), 
               ~ replace(., . %in% names(which(prop.table(table(.)) < 0.20)), "rare")))

      a    b    c d
1  rare rare rare 1
2    bb   bb rare 1
3    cc   cc rare 2
4    bb   bb   bb 2
5    bb   bb   bb 3
6    cc   cc   cc 3
7    bb   bb   bb 1
8    bb   bb   bb 1
9    cc   cc   cc 1
10   cc   cc   cc 1

如果要应用现有函数：

fun <- function(x) replace(x, x %in% names(which(prop.table(table(x)) < 0.20)), "rare")

df %>%
 mutate(across(all_of(cols), fun))

Answer 2

您的代码运行良好，只需像这样更改管道和值：

#Code
df %>%
    mutate(across(c(a:c), ~rare_label(.))

输出：

      a    b    c d
1  Rare Rare Rare 1
2    bb   bb Rare 1
3    cc   cc Rare 2
4    bb   bb   bb 2
5    bb   bb   bb 3
6    cc   cc   cc 3
7    bb   bb   bb 1
8    bb   bb   bb 1
9    cc   cc   cc 1
10   cc   cc   cc 1
11   bb   bb   bb 1
12   cc   cc   cc 1
13   bb   bb   bb 2
14   bb   bb   bb 2
15   cc   cc   cc 3
16   bb   bb   bb 3
17   bb   bb   bb 1
18   cc   cc   cc 1
19   cc   cc   cc 1
20   bb   bb   bb 1
21   bb   bb   bb 1

Answer 3

您的功能是正确的，但您需要进行 2 次更改。

删除lapply并将最后一行保留为：

replace(x, x %in% make_rare, "Rare")

由于您按名称调用列where从across删除where 。

完成这些更改后，您的代码应该可以工作。

另一种选择是使用具有执行此类操作的功能的forcats包。

library(dplyr)
library(forcats)

df %>% 
  mutate(across(all_of(cols),fct_lump_min, min = n() * .2, other_level = "rare"))

#      a    b    c d
#1  rare rare rare 1
#2    bb   bb rare 1
#3    cc   cc rare 2
#4    bb   bb   bb 2
#5    bb   bb   bb 3
#6    cc   cc   cc 3
#7    bb   bb   bb 1
#8    bb   bb   bb 1
#9    cc   cc   cc 1
#10   cc   cc   cc 1
#11   bb   bb   bb 1
#12   cc   cc   cc 1
#13   bb   bb   bb 2
#...

fct_lump_min将所有因素更改为“罕见”，发生率低于 20% (0.2 * n())。 在这里，我们为n传递了一个数字来降低级别，我找不到一个通过传递比例本身来工作的函数， fct_lump_prop做其他事情。

使用 dplyr::mutate(across()) 将多列应用于自定义函数

问题描述

3 个解决方案

解决方案1
3 已采纳 2020-09-03 21:02:16

解决方案2
3 2020-09-03 21:04:24

解决方案3
1 2020-09-04 03:36:59

使用 dplyr::mutate(across()) 将多列应用于自定义函数

问题描述

3 个解决方案

解决方案1 3 已采纳 2020-09-03 21:02:16

解决方案2 3 2020-09-03 21:04:24

解决方案3 1 2020-09-04 03:36:59

解决方案1
3 已采纳 2020-09-03 21:02:16

解决方案2
3 2020-09-03 21:04:24

解决方案3
1 2020-09-04 03:36:59