如果列中的所有值都相同，则从数据框中删除该列

Question

如果列具有相同的值，从数据框中删除列的最有效方法是什么？

这是一个示例df，但是我的df超过10 ^ 8列，因此我正在寻找最有效的方法：

df <- data.frame(c(0, 0, 0, 0, 1), c(0, 0, 0, 0, 0), c(1, 1, 1, 0, 1), c(1, 1, 1, 1, 1))

在此示例中，应删除列2和4。

谢谢！

Answer 1

一种基于diff的解决方案可能是：

df[,apply(df,2,function(x)!all(diff(x)==0))]

#    c.0..0..0..0..1. c.1..1..1..0..1.
# 1                0                1
# 2                0                1
# 3                0                1
# 4                0                0
# 5                1                1

Answer 2

一个plyr解决方案：

library(plyr)
df <- df[,colwise(function(x) length(unique(x)))(df)>1]

Answer 3

我们可以将dplyr包中的select_if函数与用户定义的函数一起使用，以检查每列中的唯一值是否为两个或多个。

library(dplyr)

# Define a function to check if two or more values in a vector
not_unique <- function(vec) length(unique(vec)) > 1

# Use select_if to select the column
df2 <- df %>% select_if(not_unique)

df2
#   c.0..0..0..0..1. c.1..1..1..0..1.
# 1                0                1
# 2                0                1
# 3                0                1
# 4                0                0
# 5                1                1

我们也可以从基数R中使用sapply 。

df[, sapply(df, not_unique)]
#   c.0..0..0..0..1. c.1..1..1..0..1.
# 1                0                1
# 2                0                1
# 3                0                1
# 4                0                0
# 5                1                1

如果列中的所有值都相同，则从数据框中删除该列

问题描述

3 个解决方案

解决方案1
2 2018-04-11 21:28:08

解决方案2
0 2018-04-11 21:17:53

解决方案3
0 2018-04-11 21:27:52

如果列中的所有值都相同，则从数据框中删除该列

问题描述

3 个解决方案

解决方案1 2 2018-04-11 21:28:08

解决方案2 0 2018-04-11 21:17:53

解决方案3 0 2018-04-11 21:27:52

解决方案1
2 2018-04-11 21:28:08

解决方案2
0 2018-04-11 21:17:53

解决方案3
0 2018-04-11 21:27:52