使用 group_by() 后跟 summarise() 和 dplyr 时，如何不将 NA 观测值包含在分组中？

Question

我有一个电话号码、电子邮件和姓名的数据框。 一些电子邮件是重复的，名称拼写不同。 我真的不在乎留下哪个名字，所以我通过电子邮件分组，并总结选择首先观察姓名和电话号码。 但是，有一些电子邮件地址丢失，但我不想将它们组合在一起，以便保留唯一的电话号码。 使用一个简化的例子，我的数据是：

data <- data.frame(x=c(1,2,3,4,5,5,5,6), y=c("a","b","c",NA,"d","d","d",NA))
data %>% group_by(y) %>% summarize(x=first(x))

当我这样做时，我失去了数字 6。 如何防止 NA 组合在一起并被汇总？

Answer 1

可能单独处理NA并将它们绑定到原始数据。

library(dplyr)

data %>%
  filter(!is.na(y)) %>%
  group_by(y) %>%
  summarize(x=first(x)) %>%
  bind_rows(data %>% filter(is.na(y)))

# A tibble: 6 x 2
#  y         x
#  <fct> <dbl>
#1 a         1
#2 b         2
#3 c         3
#4 d         5
#5 NA        4
#6 NA        6

使用 group_by() 后跟 summarise() 和 dplyr 时，如何不将 NA 观测值包含在分组中？

问题描述

1 个解决方案

解决方案1
2 已采纳 2020-02-04 02:04:06

使用 group_by() 后跟 summarise() 和 dplyr 时，如何不将 NA 观测值包含在分组中？

问题描述

1 个解决方案

解决方案1 2 已采纳 2020-02-04 02:04:06

解决方案1
2 已采纳 2020-02-04 02:04:06