使用R從數據框中提取唯一值

Question

我有一個包含多列的數據框，我希望能夠隔離兩列並獲得唯一值的總數...這是我的意思的一個例子：

假設我有一個數據框df：

df<- data.frame(v1 = c(1, 2, 3, 2, "a"), v2 = c("a", 2 ,"b","b", 4))
df

  v1 v2
1  1  a
2  2  2
3  3  b
4  2  b
5  a  4

現在我想要做的只是提取兩列上的唯一值。 因此，如果我只為每列使用unique（），那么輸出將如下所示：

> unique(df[,1])
[1] 1 2 3 a
> unique(df[,2])
[1] a 2 b 4

但這並不好，因為它只找到每列的唯一值，而我需要兩列上唯一值的總量！ 例如，兩個列中都重復了'a'，但我只想計算一次。 我需要的輸出示例; 想象列V1和V2如下所示放在彼此之上：

V1_V2的唯一值是：

然后我可以使用nrow（）計算行數。 任何想法我是如何實現這一目標的？

Answer 1

這非常適合union ：

data.frame(V1_V2=union(df$v1, df$v2))

#  V1_V2
#1     1
#2     2
#3     3
#4     a
#5     b
#6     4

Answer 2

嘗試這個：

unique(c(df[,1], df[,2]))

Answer 3

使用這種方法，您可以獲得唯一值，無論您擁有多少列：

df2 <- as.vector(as.matrix(df))
unique(df2)

然后，只需使用length 。

Answer 4

通用方法：

uq_elem=c()
for(i in 1:ncol(df))
{
  uq_elem=c(unique(df[,i]), uq_elem)
  uq_elem=unique(uq_elem)
}

所有不同的元素都在： uq_elem