在R中使用is.na获取包含NA值的列名称

Question

给定以下示例数据集：

df <- as.data.frame(matrix( c(1, 2, 3, NA, 5, NA, 
                              7, NA, 9, 10, NA, NA), nrow=2, ncol=6))

names(df) <- c(  "varA", "varB", "varC", "varD", "varE", "varF")

print(df)

  varA varB varC varD varE varF
1    1    3    5    7    9   NA
2    2   NA   NA   NA   10   NA

我希望能够在数据集上使用kmeans（...），而不必手动检查或删除变量中任何位置包含NA的变量。 当我现在要问kmeans（...）时，我将在其他方面使用类似的过程，因此，针对kmeans（...）的特定答案将无法完全回答我的问题。

我想要的手动版本是：

kmeans_model <- kmeans(df[, -c(2:4, 6)], 10)

伪代码为：

kmeans_model <- kmeans(df[, -c(colnames(is.na(df)))], 10)

另外，我也不想从df中删除数据。 提前致谢。

（显然kmeans（...）在此示例数据集上不起作用，但我无法重新创建实际数据集）

Answer 1

这是两个没有sapply选项：

kmeans_model <- kmeans(df[, !colSums(is.na(df))], 10)

要么

kmeans_model <- kmeans(df[, colSums(is.na(df)) == 0], 10)

说明：

colSums(is.na(df))计算每列NA的数量，结果为：

colSums(is.na(df))
#varA varB varC varD varE varF 
#   0    1    1    1    0    2

接着

colSums(is.na(df)) == 0     # converts to logical TRUE/FALSE
#varA  varB  varC  varD  varE  varF 
#TRUE FALSE FALSE FALSE  TRUE FALSE

是相同的

!colSums(is.na(df))
#varA  varB  varC  varD  varE  varF 
#TRUE FALSE FALSE FALSE  TRUE FALSE

两种方法都可以用于仅对逻辑值为TRUE的那些列进行子集

Answer 2

这是我用于列出列名及其NA计数的通用方法：

sort(colSums(is.na(df)> 0), decreasing = T)

如果要使用sapply，也可以引用以下代码片段：

flights_NA_cols <- sapply(flights, function(x) sum(is.na(x))) 
flights_NA_cols[flights_NA_cols>0]

在R中使用is.na获取包含NA值的列名称

问题描述

2 个解决方案

解决方案1
4 已采纳 2014-08-07 16:58:58

说明：

解决方案2
1 2017-11-30 10:19:57

在R中使用is.na获取包含NA值的列名称

问题描述

2 个解决方案

解决方案1 4 已采纳 2014-08-07 16:58:58

说明：

解决方案2 1 2017-11-30 10:19:57

解决方案1
4 已采纳 2014-08-07 16:58:58

解决方案2
1 2017-11-30 10:19:57