将变量中的值设置为NA，以另一个变量为条件

Question

如果满足另一个变量的条件，我想删除变量中的值。 例如：

df$var1[df$condvar == 0] <- NA

上面的代码工作正常，但我需要重复几十个变量，所以上面的var1会改变为var2 ， var3等。这总是基于相同的condvar ，尽管有一半的变量条件是df$condvar == 1 。 一遍又一遍地重复这一行是很麻烦的，我想知道是否有更简洁的方法来编写代码。 其中一个apply函数是否有帮助，或者我是否需要创建自定义函数？

作为一个可重复的例子，我希望避免下面代码的重复性：

ex <- mtcars
ex$mpg[ex$vs == 0] <- NA
ex$disp[ex$vs == 0] <- NA
ex$drat[ex$vs == 0] <- NA
ex$cyl[ex$vs == 1] <- NA
ex$hp[ex$vs == 1] <- NA
ex$wt[ex$vs == 1] <- NA
ex


                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4             NA   6    NA 110   NA 2.620 16.46  0  1    4    4
Mazda RX4 Wag         NA   6    NA 110   NA 2.875 17.02  0  1    4    4
Datsun 710          22.8  NA 108.0  NA 3.85    NA 18.61  1  1    4    1
Hornet 4 Drive      21.4  NA 258.0  NA 3.08    NA 19.44  1  0    3    1
Hornet Sportabout     NA   8    NA 175   NA 3.440 17.02  0  0    3    2
Valiant             18.1  NA 225.0  NA 2.76    NA 20.22  1  0    3    1
Duster 360            NA   8    NA 245   NA 3.570 15.84  0  0    3    4
etc.

如果有一行代码适用于condvar == 0所有变量而另一行适用于condvar == 1变量，我会非常高兴。

Answer 1

这是一次希望不太复杂的尝试。 如果设置要循环的vars ，并且要为索引选择相应的values ，则可以执行以下操作：

vars   <- c("mpg", "disp", "cyl", "hp")
values <- c(0, 0, 1, 1)

ex[vars] <- Map(function(x,y) replace(x, ex$vs == y, NA), ex[vars], vals)

#                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
#Mazda RX4             NA   6    NA 110 3.90 2.620 16.46  0  1    4    4
#Mazda RX4 Wag         NA   6    NA 110 3.90 2.875 17.02  0  1    4    4
#Datsun 710          22.8  NA 108.0  NA 3.85 2.320 18.61  1  1    4    1
#Hornet 4 Drive      21.4  NA 258.0  NA 3.08 3.215 19.44  1  0    3    1
#Hornet Sportabout     NA   8    NA 175 3.15 3.440 17.02  0  0    3    2
#Valiant             18.1  NA 225.0  NA 2.76 3.460 20.22  1  0    3    1
# ...

如果你只有两个组，你可以通过注释中提到的@HubertL和@Phil等几个赋值来更简单，但是使用Map可以考虑许多带有许多可能索引值的变量，而不会超过3行代码

Answer 2

感谢@HubertL（欢迎发布此作为答案，我将赞成）和@smci：

ex[ex$vs == 0, c("mpg", "disp", ...)] <- NA
ex[ex$vs == 1, c("cyl", "hp", ...)] <- NA

Answer 3

使用新的实验case_when函数的dplyr方法将类似于：

require(dplyr)

ex <- mtcars
ex <- ex %>%
      mutate(mpg  = case_when(.$vs==0 ~ as.double(NA), TRUE ~ .$mpg)) %>%
      mutate(disp = case_when(.$vs==0 ~ as.double(NA), TRUE ~ .$disp)) %>%
      mutate(cyl  = case_when(.$vs==1 ~ as.double(NA), TRUE ~ .$cyl)) %>%
      mutate(hp   = case_when(.$vs==1 ~ as.double(NA), TRUE ~ .$hp))

笔记：

Hadley 在2016-06-27说“case_when（）仍然有点实验，目前在mutate（）中没有用。这将在未来版本中修复。” 我花了40分钟才得到这个代码。 你明白了。 一旦case_when工作，它会很好。 同时filter()的解决方法如下
您必须使用.$var来引用RHS上的变量
你必须在RHS上指定NA的类型，因此所有as.double(NA)
TRUE ~ ...指定默认子句

使用filter()工作方法：

ex <- rbind(ex %>% filter(vs==0) %>% mutate(mpg=NA, disp=NA),
            ex %>% filter(vs==1) %>% mutate(cyl=NA, hp=NA) )

由于vs的分裂，它具有重新排列行的副作用

Answer 4

尝试：

ifelse(df$var1 == 0, NA, df$var1)

将变量中的值设置为NA，以另一个变量为条件

问题描述

4 个解决方案

解决方案1
5 已采纳 2016-10-13 00:13:10

解决方案2
4 2016-10-13 00:37:36

解决方案3
3 2016-10-13 00:27:11

解决方案4
0 2016-10-12 23:59:40

将变量中的值设置为NA，以另一个变量为条件

问题描述

4 个解决方案

解决方案1 5 已采纳 2016-10-13 00:13:10

解决方案2 4 2016-10-13 00:37:36

解决方案3 3 2016-10-13 00:27:11

解决方案4 0 2016-10-12 23:59:40

解决方案1
5 已采纳 2016-10-13 00:13:10

解决方案2
4 2016-10-13 00:37:36

解决方案3
3 2016-10-13 00:27:11

解决方案4
0 2016-10-12 23:59:40