R：使用dplyr基於列值的子集data.frame

Question

library(dplyr)
mydat1 <- data.frame(ID = c(1, 1, 2, 2),
                    Gender = c("Male", "Female", "Male", "Male"),
                    Score = c(30, 40, 20, 60))
mydat1 %>%
  group_by(ID, Gender) %>%
  slice(which.min(Score))

# A tibble: 3 x 3
# Groups:   ID, Gender [3]
     ID Gender Score
  <dbl> <fctr> <dbl>
1     1 Female    40
2     1   Male    30
3     2   Male    20

我正在嘗試按ID和Gender對行進行分組。 然后，我只想保留Score最低的行。 上面的代碼非常有效，因為當ID == 2 ，我只保留得分較低的條目。

mydat2 <- data.frame(ID = c(1, 1, 2, 2),
                    Gender = c("Male", "Female", "Male", "Male"),
                    Score = c(NA, NA, 20, 60))

mydat2 %>%
  group_by(ID, Gender) %>%
  slice(which.min(Score))

# A tibble: 1 x 3
# Groups:   ID, Gender [1]
     ID Gender Score
  <dbl> <fctr> <dbl>
1     2   Male    20

但是，當我有NA時， which.min不會像我想要的那樣工作，因為它不會返回有效的索引。 而是刪除了我所有的ID == 1條目。 在這種情況下，我期望的輸出是：

# A tibble: 1 x 3
# Groups:   ID, Gender [1]
     ID Gender Score
  <dbl> <fctr> <dbl>
1     1 Female    NA
2     1   Male    NA
1     2   Male    20

如何修改我的代碼以解決此問題？

編輯：

df2 <- structure(list(pubmed_id = c(23091106L, 23091106L), Gender = structure(c(4L, 
                                                                                4L), .Label = c("", "Both", "female", "Female", "Male"), class = "factor"), 
                      Total_Carrier = c(NA, 1107)), class = c("grouped_df", "tbl_df", 
                                                              "tbl", "data.frame"), row.names = c(NA, -2L), vars = "pubmed_id", drop = TRUE, indices = list(
                                                                0:1), group_sizes = 2L, biggest_group_size = 2L, labels = structure(list(
                                                                  pubmed_id = 23091106L), class = "data.frame", row.names = c(NA, 
                                                                                                                              -1L), vars = "pubmed_id", drop = TRUE, .Names = "pubmed_id"), .Names = c("pubmed_id", 
                                                                                                                                                                                                       "Gender", "Total_Carrier"))

> df2
# A tibble: 2 x 3
# Groups:   pubmed_id [1]
  pubmed_id Gender Total_Carrier
      <int> <fctr>         <dbl>
1  23091106 Female            NA
2  23091106 Female          1107

在此示例中，我希望所需的輸出僅包含第2行（即，載波樣本大小為1107的行）。 但是，我得到以下結果：

> df2 %>%
   group_by(pubmed_id, Gender) %>%
   slice(which.min(Total_Carrier) || 1)

# A tibble: 1 x 3
# Groups:   pubmed_id, Gender [1]
  pubmed_id Gender Total_Carrier
      <int> <fctr>         <dbl>
1  23091106 Female            NA

Answer 1

當輸入向量僅包含NA時， which.min忽略缺失值，並返回integer(0) 。 您可以在slice添加條件檢查，即，當所有分數均在一個組中均為NA ，選擇第一行：

mydat2 %>%
     group_by(ID, Gender) %>%
     slice({idx <- which.min(Score); if(length(idx) > 0) idx else 1})

# A tibble: 3 x 3
# Groups:   ID, Gender [3]
#     ID Gender Score
#  <dbl> <fctr> <dbl>
#1     1 Female    NA
#2     1   Male    NA
#3     2   Male    20

Answer 2

您還可以使用“ arrange對組中的分數進行排序，然后進行slice以選擇每個組的第一行。 這樣，如果組中僅NA，則仍將選擇第一行：

mydat2 %>%
group_by(ID, Gender) %>%
arrange(ID,Gender,Score) %>%
slice(1)
     ID Gender Score
  <dbl> <fctr> <dbl>
1     1 Female    NA
2     1   Male    NA
3     2   Male    20

Answer 3

這是另一種選擇與which和pmin

mydat2 %>%
   group_by(ID, Gender) %>% 
   slice(pmin(1, which(Score == min(Score, na.rm = TRUE))[1], na.rm = TRUE))
# A tibble: 3 x 3
# Groups:   ID, Gender [3]
#      ID Gender Score
#   <dbl> <fctr> <dbl>
#1     1 Female    NA
#2     1   Male    NA
#3     2   Male    20

Answer 4

使用data.table的解決方案

library(data.table)
setDT(mydat2)
mydat2[, .(Score = sort(Score)[1]), by = .(ID, Gender)]
#    ID Gender Score
# 1:  1   Male    NA
# 2:  1 Female    NA
# 3:  2   Male    20

R：使用dplyr基於列值的子集data.frame

問題描述

4 個解決方案

解決方案1
3 已采納 2017-12-20 01:31:33

解決方案2
2 2017-12-20 01:50:20

解決方案3
1 2017-12-20 02:27:10

解決方案4
1 2017-12-20 02:34:17

R：使用dplyr基於列值的子集data.frame

問題描述

4 個解決方案

解決方案1 3 已采納 2017-12-20 01:31:33

解決方案2 2 2017-12-20 01:50:20

解決方案3 1 2017-12-20 02:27:10

解決方案4 1 2017-12-20 02:34:17

解決方案1
3 已采納 2017-12-20 01:31:33

解決方案2
2 2017-12-20 01:50:20

解決方案3
1 2017-12-20 02:27:10

解決方案4
1 2017-12-20 02:34:17