[英]How to do conditional computation of rowMeans in R?
我想计算跨越几个变量rowMeans,但目前的数据只有在至少有80%是。 在第一个示例中,均值应该仅针对第一行进行计算。 在第二个中,不应计算任何均值。 我如何做到这一点?
x <- c(1, 2)
y <- c(1, 2)
z <- c(1, NA)
z1 <- c(1, NA)
z2 <- c(1, NA)
df <- data.frame(x, y, z, z1, z2)
df$means <- rowMeans(df)
df
x y z z1 z2 means
1 1 1 1 1 1 1
2 2 2 NA NA NA NA
x <- c(1, 2)
y <- c(1, 2)
z <- c(1, 2)
z1 <- c(1, 2)
z2 <- c(1, NA)
df <- data.frame(x, y, z, z1, z2)
df$means <- rowMeans(df)
df
x y z z1 z2 means
1 1 1 1 1 1 1
2 2 2 2 2 NA 2
也许像这样?
transform(df, means = apply(df, 1, function(x)
ifelse(sum(is.na(x)) / length(x) < 0.2, mean(x, na.rm = T), NA)))
# x y z z1 z2 means
#1 1 1 1 1 1 1
#2 2 2 NA NA NA NA
说明:我们计算每行NA
的分数,并且仅当分数<0.2(即该行包含至少80%的非NA
值)时才返回行均值。
另一种完全矢量化的方法,我们首先计算所有行的均值。
df1$means <- rowMeans(df1, na.rm = TRUE)
现在,我们通过替换那些价值NA
那里有不到80%的非NA
每行秒。
old_cols <- setdiff(names(df1), "means")
NA_rows <- 1 - rowMeans(is.na(df1[, old_cols])) < 0.8
df1[NA_rows, "means"] <- NA
df1
# x y z z1 z2 means
#1 1 1 1 1 1 1
#2 2 2 NA NA NA NA
数据
df1 <- structure(list(x = c(1, 2), y = c(1, 2), z = c(1, NA), z1 = c(1,
NA), z2 = c(1, NA)), .Names = c("x", "y", "z", "z1", "z2"), row.names = c(NA,
-2L), class = "data.frame")
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.