查找一列中相同但另一列中相同的行

Question

应该有一个相当简单的解决方案，但这给我带来了麻烦。 我有一个与此类似的 DF：

> df <- data.frame(name = c("george", "george", "george", "sara", "sara", "sam", "bill", "bill"),
                  id_num = c(1, 1, 2, 3, 3, 4, 5, 5))
> df
    name id_num
1 george      1
2 george      1
3 george      2
4   sara      3
5   sara      3
6    sam      4
7   bill      5
8   bill      5

我正在寻找一种方法来查找在非常大的数据集中名称和 ID 号不一致的行。 即，乔治应该始终是“1”，但在第三行有一个错误，他也被分配了 ID 号“2”。

Answer 1

我认为最简单的方法是使用dplyr::count两次，因此对于您的示例：

df %>% 
   count(name, id) %>% 
   count(name)

第一个计数将给出：

name   id   n
george  1   2
george  2   1
sara    3   2
sam     4   1
bill    5   2

然后第二个计数将给出：

name    n
george  2
sara    1 
sam     1 
bill    1

当然，您也可以将filter(n > 1)添加到 pipe 的末尾，或者arrange(desc(n))

df %>% 
   count(name, id) %>% 
   count(name) %>% 
   arrange(desc(n)) %>% 
   filter(n > 1)

Answer 2

使用tapply()计算每个名称的 ID 数，然后是大于 1 的子集。

res <- with(df, tapply(id_num, list(name), \(x) length(unique(x))))
res[res > 1]
# george 
#      2

您可能想要更正此问题。 一种安全的方法是使用as.factor()重建数字 ID，

df$id_new <- as.integer(as.factor(df$name))
df
#     name id_num id_new
# 1 george      1      2
# 2 george      1      2
# 3 george      2      2
# 4   sara      3      4
# 5   sara      3      4
# 6    sam      4      3
# 7   bill      5      1
# 8   bill      5      1

其中数字是根据按字母顺序或factor()的名称分配的，按出现顺序读取级别。

df$id_new2 <- as.integer(factor(df$name, levels=unique(df$name)))
df
#     name id_num id_new id_new2
# 1 george      1      2       1
# 2 george      1      2       1
# 3 george      2      2       1
# 4   sara      3      4       2
# 5   sara      3      4       2
# 6    sam      4      3       3
# 7   bill      5      1       4
# 8   bill      5      1       4

注意：使用 R >= 4.1。

数据：

df <- structure(list(name = c("george", "george", "george", "sara", 
"sara", "sam", "bill", "bill"), id_num = c(1, 1, 2, 3, 3, 4, 
5, 5)), class = "data.frame", row.names = c(NA, -8L))

查找一列中相同但另一列中相同的行

问题描述

2 个解决方案

解决方案1
0 2022-01-20 22:14:51

解决方案2
0 2022-01-21 05:55:38

查找一列中相同但另一列中相同的行

问题描述

2 个解决方案

解决方案1 0 2022-01-20 22:14:51

解决方案2 0 2022-01-21 05:55:38

解决方案1
0 2022-01-20 22:14:51

解决方案2
0 2022-01-21 05:55:38