检查 R 中缺失数据模式的最优雅方法是什么？

Question

我在 R 中有一组数字向量，每个长度为 16。我想选择那些所有值都存在于以下四个位置之一的向量：1:4, 5:8, 9:12, 13:16

例如向量c(NA, 1, NA, 1, 1, 1, 1, 1, NA, NA, 1, NA, NA, 1, NA, 1, NA)将通过测试，因为位置 5:8 都是非 NA。

测试这个的最优雅（即使用最少的易于阅读的代码）方法是什么？

Answer 1

使用索引列表，您可以遍历这些范围并查找没有任何NA ：

vec <- c(NA, 1, NA, 1, 1, 1, 1, 1, NA, NA, 1, NA, NA, 1, NA, 1, NA)
sapply(list(1:4, 5:8, 9:12, 13:16),
       function(ind) !anyNA(vec[ind]))
# [1] FALSE  TRUE FALSE FALSE

如果要返回这些索引中的值：

inds <- list(1:4, 5:8, 9:12, 13:16)
good <- sapply(inds, function(ind) !anyNA(vec[ind]))
# should check that `any(good)` is true
inds[[ which(good)[1] ]]
# [1] 5 6 7 8
vec[ inds[[ which(good)[1] ]] ]
# [1] 1 1 1 1

Answer 2

这是一个带有rleid的选项，用于获取向量的运行长度编码 ID，将其用作分组变量以检查是否有任何序列具有完整的非 NA 元素集

library(data.table)
any(as.logical(ave(seq_along(v1) * v1, rleid(v1),
         FUN = function(x) all(!is.na(x))) ))
#[1] TRUE

或者它也可以

any(with(rle(!is.na(v1)), lengths[values] >=4))
#[1] TRUE

或者另一种选择是table

4 %in% table(v1 * (seq_along(v1) -1) %/% 4)
#[1] TRUE

数据

v1 <- c(NA, 1, NA, 1, 1, 1, 1, 1, NA, NA, 1, NA, NA, 1, NA, 1, NA)

Answer 3

以下代码将返回单个值（ TRUE或FALSE ）。 如果向量通过测试，则返回TRUE 。

vec <- c(NA, 1, NA, 1, 1, 1, 1, 1, NA, NA, 1, NA, NA, 1, NA, 1, NA)

!all(tapply(vec, rep(1:length(vec), each = 4, len = length(vec)), anyNA))
# [1] TRUE

检查 R 中缺失数据模式的最优雅方法是什么？

问题描述

3 个解决方案

解决方案1
3 已采纳 2020-03-14 21:00:25

解决方案2
2 2020-03-14 21:00:48

数据

解决方案3
0 2020-03-14 21:34:50

检查 R 中缺失数据模式的最优雅方法是什么？

问题描述

3 个解决方案

解决方案1 3 已采纳 2020-03-14 21:00:25

解决方案2 2 2020-03-14 21:00:48

数据

解决方案3 0 2020-03-14 21:34:50

解决方案1
3 已采纳 2020-03-14 21:00:25

解决方案2
2 2020-03-14 21:00:48

解决方案3
0 2020-03-14 21:34:50