仅返回R中包含NA的列

Question

我有以下数据框架：

i3<-c(1,1,1,1,2,2)
i2<-c(NA,1,1,1,2,2)
i1<-c(1,NA,2,4,5,3)
newdat1<-data.frame(i3,i2,i1)
print(newdat1)
  i3 i2 i1
1  1 NA  1
2  1  1 NA
3  1  1  2
4  1  1  4
5  2  2  5
6  2  2  3

我意识到这个解决方案非常简单，但我试图返回任何NA的所有列，以便最终结果如下：

我发现以下代码反其道而行之：

newdat1<-newdat1[, sapply(newdat1, Negate(anyNA)), drop = FALSE]

但我找不到我想要的东西。 谢谢。

Answer 1

newdat1[!complete.cases(t(newdat1))]

输出：

Answer 2

所以我只想提请你注意OPs解决方案实际上是最好的（正如我所料）因为apply和colSums将整个data.frame转换为matrix ，而另一个解决方案转换整个数据集。

OPs自己的sapply解决方案适用于矢量而不会在实现Primitive函数时转换整个数据集，这里有一些更大数据集的基准测试

set.seed(123)
bidData <- as.data.frame(replicate(1e4, sample(c(NA, 1:3), 1e4, replace = TRUE)))

library(microbenchmark)
microbenchmark(
  mpalanco=bidData[,!complete.cases(t(bidData)), drop = FALSE],
  mikechir=bidData[,is.na(colSums(bidData)), drop = FALSE],
  sabddem =bidData[,!apply(bidData, 2, function(x) sum(is.na(x)) == 0 ), drop = FALSE],
  OP = bidData[, sapply(bidData, anyNA), drop = FALSE])

# Unit: milliseconds
#     expr       min         lq       mean     median         uq        max neval
# mpalanco 2347.0316 2401.32940 2434.24480 2421.22703 2449.32975 2972.82020   100
# mikechir  352.8597  363.01980  425.11366  403.58777  477.06792  799.15855   100
#  sabddem 1869.2324 2025.22459 2591.11786 2812.56430 2853.55268 3655.91325   100
#       OP   17.5455   18.25625   18.99749   18.65456   19.54728   25.36552   100

Answer 3

apply和子集的解决方案：

ind <- apply(newdat1, 2, function(x) sum(is.na(x)) == 0 )

newdat1[!ind]
  i2 i1
1 NA  1
2  1 NA
3  1  2
4  1  4
5  2  5
6  2  3

Answer 4

使用base R和colSums ：

newdat1[,is.na(colSums(newdat1))]

  i2 i1
1 NA  1
2  1 NA
3  1  2
4  1  4
5  2  5
6  2  3

仅返回R中包含NA的列

问题描述

4 个解决方案

解决方案1
5 2015-07-30 18:32:28

解决方案2
2

解决方案3
1 已采纳 2015-07-30 18:20:46

解决方案4
1 2015-07-30 19:04:09

仅返回R中包含NA的列

问题描述

4 个解决方案

解决方案1 5 2015-07-30 18:32:28

解决方案2 2

解决方案3 1 已采纳 2015-07-30 18:20:46

解决方案4 1 2015-07-30 19:04:09

解决方案1
5 2015-07-30 18:32:28

解决方案2
2

解决方案3
1 已采纳 2015-07-30 18:20:46

解决方案4
1 2015-07-30 19:04:09