R中数据帧中的条件子集

Question

我在 R 中有一个数据框，如下所示：

Id   group   category number
001  1       A        0.10
001  1       B        0.15
002  2       A        0.55
003  3       A        0.75
003  3       B        0.45

现在，我希望每个Id只有一行。 对于groups 1 和groups 2 中的 Id，应主要使用category为 B 的行。 如果第 1 groups或第 2 groups没有category为 B 的行，则应使用category A。 对于group为 3 的Id's ，应始终使用category为 A 的行。

输出应该是这样的

Id   group   category number
001  1       B        0.15
002  2       A        0.55
003  3       A        0.75

这怎么能在 R 中完成？

Answer 1

我们可以使用slice

library(dplyr)
df1 %>% 
   group_by(Id) %>%
   slice(max(match('B', category, nomatch = 0), 1))

数据

df1 <- structure(list(Id = c("001", "001", "002", "003", "003"), group = c(1L, 
1L, 2L, 3L, 3L), category = c("A", "B", "A", "A", "B"), number = c(0.1, 
0.15, 0.55, 0.75, 0.45)), row.names = c(NA, -5L), class = "data.frame")

Answer 2

由于B在A之后，我们将按类别降序排序，每组保留一行，根据您的建议过滤掉第 3 组/类别 A 的行。

library(dplyr) 
your_data %>%
  filter(!(group == 3 & category == "A")) %>%
  group_by(Id, group) %>%
  arrange(desc(category)) %>%
  slice(1)

R中数据帧中的条件子集

问题描述

2 个解决方案

解决方案1
1 2020-11-16 19:29:36

数据

解决方案2
0 已采纳 2020-11-16 14:26:33

R中数据帧中的条件子集

问题描述

2 个解决方案

解决方案1 1 2020-11-16 19:29:36

数据

解决方案2 0 已采纳 2020-11-16 14:26:33

解决方案1
1 2020-11-16 19:29:36

解决方案2
0 已采纳 2020-11-16 14:26:33