排除值在另一行中使用的行

Question

假设您有以下数据集：


df = data.frame(ID = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20), gender= c(1,2,1,2,2,2,2,1,1,2,1,2,1,2,2,2,2,1,1,2),
                PID = c(1,1,2,2,3,3,4,4,5,5,6,6,7,7,8,8,9,9,10,10))

我如何编写代码来删除 df 中性别和 PID 相同的行（见图）。 请想象一下代码超过 1000 行（因此它应该是一个自动搜索要排除的正确值的解决方案）。

在此处输入图像描述

Answer 1

基地 R

df[ave(rep(TRUE, nrow(df)), df[,c("gender","paar")], FUN = function(z) !any(duplicated(z))),]
#    ID gender paar
# 1   1      1    1
# 2   2      2    1
# 3   3      1    2
# 4   4      2    2
# 7   7      2    4
# 8   8      1    4
# 9   9      1    5
# 10 10      2    5
# 11 11      1    6
# 12 12      2    6
# 13 13      1    7
# 14 14      2    7
# 17 17      2    9
# 18 18      1    9
# 19 19      1   10
# 20 20      2   10

dplyr

library(dplyr)
df %>%
  group_by(gender, paar) %>%
  filter(!any(duplicated(cbind(gender, paar)))) %>%
  ungroup()

Answer 2

在base R中，我们可以在删除 'gender' 和 'paar' 的组计数不为 1 的观察值后使用subset

subset(df, ave(seq_along(gender), gender, paar, FUN = length) == 1)

或者duplicated

df[!(duplicated(df[-1])|duplicated(df[-1], fromLast = TRUE)),]

-输出

   ID gender paar
1   1      1    1
2   2      2    1
3   3      1    2
4   4      2    2
7   7      2    4
8   8      1    4
9   9      1    5
10 10      2    5
11 11      1    6
12 12      2    6
13 13      1    7
14 14      2    7
17 17      2    9
18 18      1    9
19 19      1   10
20 20      2   10

Answer 3

使用aggregate

na.omit(aggregate(. ~ gender + PID, df, function(x) 
  ifelse(length(x) == 1, x, NA)))
   gender PID ID
1       1   1  1
2       2   1  2
3       1   2  3
4       2   2  4
6       1   4  8
7       2   4  7
8       1   5  9
9       2   5 10
10      1   6 11
11      2   6 12
12      1   7 13
13      2   7 14
15      1   9 18
16      2   9 17
17      1  10 19
18      2  10 20

用dplyr

library(dplyr)

df %>% 
  group_by(gender, PID) %>% 
  filter(n() == 1) %>% 
  ungroup()
# A tibble: 16 × 3
      ID gender   PID
   <dbl>  <dbl> <dbl>
 1     1      1     1
 2     2      2     1
 3     3      1     2
 4     4      2     2
 5     7      2     4
 6     8      1     4
 7     9      1     5
 8    10      2     5
 9    11      1     6
10    12      2     6
11    13      1     7
12    14      2     7
13    17      2     9
14    18      1     9
15    19      1    10
16    20      2    10

Answer 4

另一个dplyr选项可以是：

df %>%
 filter(with(rle(paste0(gender, PID)), rep(lengths == 1, lengths)))

   ID gender PID
1   1      1   1
2   2      2   1
3   3      1   2
4   4      2   2
5   7      2   4
6   8      1   4
7   9      1   5
8  10      2   5
9  11      1   6
10 12      2   6
11 13      1   7
12 14      2   7
13 17      2   9
14 18      1   9
15 19      1  10
16 20      2  10

如果重复值也可能出现在非连续行之间：

df %>%
 arrange(gender, PID) %>%
 filter(with(rle(paste0(gender, PID)), rep(lengths == 1, lengths)))

Answer 5

这是另一个：:-)

library(dplyr)
df %>%
  group_by(gender, PID) %>%  
  filter(is.na(ifelse(n()>1, 1, NA)))

     ID gender   PID
   <dbl>  <dbl> <dbl>
 1     1      1     1
 2     2      2     1
 3     3      1     2
 4     4      2     2
 5     7      2     4
 6     8      1     4
 7     9      1     5
 8    10      2     5
 9    11      1     6
10    12      2     6
11    13      1     7
12    14      2     7
13    17      2     9
14    18      1     9
15    19      1    10
16    20      2    10

排除值在另一行中使用的行

问题描述

5 个解决方案

解决方案1
2 2022-11-23 19:51:32

基地 R

dplyr

解决方案2
1 2022-11-23 19:52:03

解决方案3
1 2022-11-23 19:55:45

解决方案4
1 2022-11-23 20:03:31

解决方案5
1 2022-11-23 20:07:28

排除值在另一行中使用的行

问题描述

5 个解决方案

解决方案1 2 2022-11-23 19:51:32

基地 R

dplyr

解决方案2 1 2022-11-23 19:52:03

解决方案3 1 2022-11-23 19:55:45

解决方案4 1 2022-11-23 20:03:31

解决方案5 1 2022-11-23 20:07:28

解决方案1
2 2022-11-23 19:51:32

解决方案2
1 2022-11-23 19:52:03

解决方案3
1 2022-11-23 19:55:45

解决方案4
1 2022-11-23 20:03:31

解决方案5
1 2022-11-23 20:07:28