如何找到2个数据框之间的差异？

Question

我有2个“完全”相同的数据框。 它们之间的区别在于，一个具有676个观测值（行），第二个具有666个观测值。 我不知道在第二个数据帧中遗漏了哪些行。

如果有人可以向我展示代码如何使用丢失的那10行创建第三个数据帧，那对我来说将是最简单的。

数据帧的名称：-数据集1（676）-数据集2（666）

谢谢。

Answer 1

dataset1[tail(!duplicated(rbind(dataset2, dataset1)), nrow(dataset1)), ]

Answer 2

这是一种方法：

library(qdap)

## generate random problem
prob <- sample(1:nrow(mtcars), 1)    
## remove the random problem row
mtcars2 <- mtcars[-prob, ]   
## Throw it into a list of 2 dataframes so they're easier to work with
dat <- list(mtcars, mtcars2)   
## Use qdap's `paste2` function to paste all columns together
dat2 <- lapply(dat, paste2)   
## Find the shorter data set
wmn <- which.min(sapply(dat2, length))
## Add additional element to shorter one
dat2[[wmn]] <- c(dat2[[wmn]], NA)
## check each element of the 2 pasted data sets for equality
out <- mapply(identical, dat2[[1]], dat2[[2]])

## Which row's the problem
which(!out)[1]
which(!out)[1] == prob

如果which(!out)[1]等于NA问题在最后一行。

当您开始看到FALSE ，这就是问题所在。

编辑：删除了for循环

Answer 3

我会说尝试使用merge ，然后查找合并结果中具有NA值的位置。

这是使用伪数据的示例：

set.seed(1)
df1 <- data.frame(x=rnorm(100),y=rnorm(100))
df2 <- df1[-sample(1:100,10),]
dim(df1)
# [1] 100   2
dim(df2)
# [1] 90  2
out <- merge(df1,df2,by='x',all.x=TRUE)
in1not2 <- which(is.na(out$y.y))
in1not2
# [1]  6 25 33 51 52 53 57 73 77 82

然后您可以提取：

> df1[in1not2,]
           x           y
6  -0.8204684  1.76728727
25  0.6198257 -0.10019074
33  0.3876716  0.53149619
51  0.3981059  0.45018710
52 -0.6120264 -0.01855983
53  0.3411197 -0.31806837
57 -0.3672215  1.00002880
73  0.6107264  0.45699881
77 -0.4432919  0.78763961
82 -0.1351786  0.98389557

如何找到2个数据框之间的差异？

问题描述

3 个解决方案

解决方案1
3 已采纳 2013-10-14 13:01:12

解决方案2
1 2013-10-14 12:55:18

解决方案3
0 2013-10-14 12:50:12

如何找到2个数据框之间的差异？

问题描述

3 个解决方案

解决方案1 3 已采纳 2013-10-14 13:01:12

解决方案2 1 2013-10-14 12:55:18

解决方案3 0 2013-10-14 12:50:12

解决方案1
3 已采纳 2013-10-14 13:01:12

解决方案2
1 2013-10-14 12:55:18

解决方案3
0 2013-10-14 12:50:12