提取具有特定列重復項但在另一列中唯一的行

Question

我正在使用R進行一些編碼。我想顯示列ID和NAME重復的行，但AGE的值不同。

例如，我有這個表：

ID |    NAME | AGE
111|     Mark| 22
222|     Anne| 21
333|    Chery| 30
444|    Megan| 16
555|  Charles| 37
111|     Mark| 23
222|     Anne| 22
333|    Chery| 30
111|     Mark| 22

截至目前我有這個代碼：

readfile <- read.csv(file='/home/user/shane/names.csv')
dat <- data.frame(ID=c(readfile$ID),NAME=c(readfile$NAME),AGE=c(readfile$AGE))
nam <- duplicated(dat[,c('ID','NAME)]) | duplicated(dat[,c('ID','NAME], fromLast = TRUE)
readfile[nam,]

輸出如下所示：

ID |    NAME | AGE
111|     Mark| 22
222|     Anne| 21
333|    Chery| 30
111|     Mark| 23
222|     Anne| 22
333|    Chery| 30
111|     Mark| 22

我希望輸出為：

ID |    NAME | AGE
111|     Mark| 22
222|     Anne| 21
111|     Mark| 23
222|     Anne| 22
111|     Mark| 22

我想刪除ID = 333的列，因為它們在Age中具有相同的值。 有人會有什么建議嗎？

Answer 1

我只是調整你的代碼:)

library(plyr) 

dat1 <- ddply(dat, .(ID, NAME, AGE), nrow) 
dat2 <- merge(dat1, dat, by=c("ID", "NAME", "AGE")) 
dat3 <- dat2[!(!duplicated(dat2[, 1:2], fromLast=T) & !duplicated(dat2[, 1:2])),] 
dat3[dat3$ID %in% dat3[dat3$V1 == 1, 1], 1:3]

輸出是：

   ID NAME AGE
1 111 Mark  22
2 111 Mark  22
3 111 Mark  23
4 222 Anne  21
5 222 Anne  22

樣本數據：

dat <- data.frame(ID=c(111,222,333,444,555,111,222,333,111), 
                  NAME=c('Mark','Anne','Chery','Megan','Charles','Mark','Anne','Chery','Mark'), 
                  AGE=c(22,21,30,16,37,23,22,30,22)) 
#   ID    NAME AGE
#1 111    Mark  22
#2 222    Anne  21
#3 333   Chery  30
#4 444   Megan  16
#5 555 Charles  37
#6 111    Mark  23
#7 222    Anne  22
#8 333   Chery  30
#9 111    Mark  22

更新：更正格式以便更好地閱讀

Answer 2

一個dplyr解決方案：

library(dplyr)
dat %>%
    group_by(ID, NAME) %>%
    filter(n() > 1, sum(duplicated(AGE)) == 0) %>%
    ungroup()
# A tibble: 4 x 3
     ID   NAME   AGE
  <dbl> <fctr> <dbl>
1   111   Mark    22
2   222   Anne    21
3   111   Mark    23
4   222   Anne    22

我使用了@Prem友情提供的數據。

Answer 3

這是data.table選項

library(data.table)
setDT(dat)[, .SD[.N >1 & !sum(duplicated(AGE))], by = .(ID, NAME)]
#    ID NAME AGE
#1: 111 Mark  22
#2: 111 Mark  23
#3: 222 Anne  21
#4: 222 Anne  22

提取具有特定列重復項但在另一列中唯一的行

問題描述

3 個解決方案

解決方案1
6 已采納 2017-07-02 08:37:44

解決方案2
2 2017-07-02 08:47:13

解決方案3
1 2017-07-02 10:26:36

提取具有特定列重復項但在另一列中唯一的行

問題描述

3 個解決方案

解決方案1 6 已采納 2017-07-02 08:37:44

解決方案2 2 2017-07-02 08:47:13

解決方案3 1 2017-07-02 10:26:36

解決方案1
6 已采納 2017-07-02 08:37:44

解決方案2
2 2017-07-02 08:47:13

解決方案3
1 2017-07-02 10:26:36