计算R中多个列的唯一值

Question

假设我有这样的data.frame：

a b 1
b c 2
c e 3
d a 4

我试图计算前两列的唯一值，因此结果应为5 ，代表abcde

但是我的问题是我的数据如此之大，大约有7,000,000行，因此我想将第二行的行追加到第一行。 但是我只知道如何一次添加一行，因此任何人都对如何将整个列添加到第一列有任何想法？ 还是您有解决此问题的更好主意？

提前致谢

Answer 1

我们可以将unlist与unique

length(unique(unlist(df1[1:2])))
#[1] 5

或转置数据集，即对前两列进行分组后，将其连接到vector ，获得unique元素并找到length

length(unique(c(t(df1[-3]))))
#[1] 5

数据

df1 <- structure(list(v1 = c("a", "b", "c", "d"), v2 = c("b", "c", "e", 
"a"), v3 = 1:4), .Names = c("v1", "v2", "v3"), class = "data.frame", 
row.names = c(NA, -4L))

Answer 2

作为一种紧凑的替代方案，您还可以使用set函数union ：

length(with(df1, union(v1, v2)))
[1] 5

底层代码，以union几乎是相同的@ akrun的代码可以看出键入不带括号的函数：

union
function (x, y) 
unique(c(as.vector(x), as.vector(y)))
<bytecode: 0x41f0790>
<environment: namespace:base>

计算R中多个列的唯一值

问题描述

2 个解决方案

解决方案1
4 已采纳 2016-07-18 03:17:00

数据

解决方案2
0 2016-07-18 16:22:49

计算R中多个列的唯一值

问题描述

2 个解决方案

解决方案1 4 已采纳 2016-07-18 03:17:00

数据

解决方案2 0 2016-07-18 16:22:49

解决方案1
4 已采纳 2016-07-18 03:17:00

解决方案2
0 2016-07-18 16:22:49