根據條件R匹配和刪除行

Question

我為你們准備了一個有趣的東西。

我首先要查看：查看ID列並確定重復值。 一旦確定了這些，代碼應該通過重復值的收入並保持行具有更大的收入。

因此，如果有三個ID值為2，它將查找收入最高的那個並保留該行。

 ID Income 1 98765 2 3456 2 67 2 5498 5 23 6 98 7 5645 7 67871 9 983754 10 982 10 2374 10 875 10 4744 11 6853

我知道它像基於條件的子集一樣容易，但我不知道如何根據一個單元格中的收入是否大於另一個單元格來刪除行。（僅在id匹配時才進行）

我正在考慮使用ifelse語句來創建一個新列以識別重復項（通過子集化或不通過子集化），然后再使用新列的值來確定更大的收入。 從那里我可以根據我創建的新列進行子集化。

有更快，更有效的方法嗎？

結果應該是這樣的。

 ID Income 1 98765 2 5498 5 23 6 98 7 67871 9 983754 10 4744 11 6853

謝謝

Answer 1

我們可以通過檢查“收入”中按“ID”分組的最高值來slice行

library(dplyr)
df1 %>%
  group_by(ID) %>%
  slice(which.max(Income))

或者使用data.table

library(data.table)
setDT(df1)[, .SD[which.max(Income)], by = ID]

或者用base R

df1[with(df1, ave(Income, ID, FUN = max) == Income),]
#     ID Income
#1   1  98765
#4   2   5498
#5   5     23
#6   6     98
#8   7  67871
#9   9 983754
#13 10   4744
#14 11   6853

數據

df1 <- structure(list(ID = c(1L, 2L, 2L, 2L, 5L, 6L, 7L, 7L, 9L, 10L, 
10L, 10L, 10L, 11L), Income = c(98765L, 3456L, 67L, 5498L, 23L, 
98L, 5645L, 67871L, 983754L, 982L, 2374L, 875L, 4744L, 6853L)), 
class = "data.frame", row.names = c(NA, 
-14L))

Answer 2

order duplicated （Base R）

df=df[order(df$ID,-df$Income),]
df[!duplicated(df$ID),]
   ID Income
1   1  98765
4   2   5498
5   5     23
6   6     98
8   7  67871
9   9 983754
13 10   4744
14 11   6853

Answer 3

這是另一種dplyr方法。 我們可以排列列，然后切片第一行的數據幀。

library(dplyr)

df2 <- df %>%
  arrange(ID, desc(Income)) %>%
  group_by(ID) %>%
  slice(1) %>%
  ungroup()
df2
# # A tibble: 8 x 2
#      ID Income
#   <int>  <int>
# 1     1  98765
# 2     2   5498
# 3     5     23
# 4     6     98
# 5     7  67871
# 6     9 983754
# 7    10   4744
# 8    11   6853

數據

df <- read.table(text = "ID Income
1   98765
2   3456
2   67
2   5498
5   23
6   98
7   5645
7   67871
9   983754
10  982
10  2374
10  875
10  4744
11  6853",
                 header = TRUE)

Answer 4

來自dplyr的Group_by和總結也會起作用

df1 %>% 
  group_by(ID) %>% 
  summarise(Income=max(Income))

     ID  Income
  <int>   <dbl>
1     1  98765.
2     2   5498.
3     5     23.
4     6     98.
5     7  67871.
6     9 983754.
7    10   4744.
8    11   6853.

Answer 5

使用sqldf ：按ID分組並選擇相應的max Income

library(sqldf)
sqldf("select ID,max(Income) from df group by ID")

輸出：

  ID max(Income)
1  1       98765
2  2        5498
3  5          23
4  6          98
5  7       67871
6  9      983754
7 10        4744
8 11        6853

根據條件R匹配和刪除行

問題描述

5 個解決方案

解決方案1
3 已采納 2018-09-07 16:26:11

數據

解決方案2
3 2018-09-07 16:31:00

解決方案3
3 2018-09-09 13:38:56

解決方案4
2 2018-09-07 16:44:01

解決方案5
2 2018-09-07 16:45:37

根據條件R匹配和刪除行

問題描述

5 個解決方案

解決方案1 3 已采納 2018-09-07 16:26:11

數據

解決方案2 3 2018-09-07 16:31:00

解決方案3 3 2018-09-09 13:38:56

解決方案4 2 2018-09-07 16:44:01

解決方案5 2 2018-09-07 16:45:37

解決方案1
3 已采納 2018-09-07 16:26:11

解決方案2
3 2018-09-07 16:31:00

解決方案3
3 2018-09-09 13:38:56

解決方案4
2 2018-09-07 16:44:01

解決方案5
2 2018-09-07 16:45:37