使用 dplyr 在多列上按组插入 NA

Question

我有一个这样的数据框：

> head(df1)
  iso year var1 var2 var3
1 XXX 2005  165   29 2151
2 XXX 2006  160   21 2139
3 XXX 2007   NA   NA   NA
4 XXX 2008  184    9 3640
5 XXX 2009   NA   NA   NA
6 YYY 2005  206  461 8049

我想更换NA 'S的基础上围绕它和多年的间歇年NA多年来在该范围的开始和结束的由执行向后和向前的最外面的非NA观察。

我为一列执行此操作的代码是：

df1 %>% 
 group_by(iso) %>%
 mutate(var1 = na.approx(var1, na.rm = FALSE, rule = 1)) %>%
 mutate(var1 = na.locf(var1, na.rm = FALSE)) %>%
 mutate(var1 = na.locf(var1, na.rm = FALSE, fromLast = TRUE))

这是有效的，所以现在我想一次性为所有列执行此操作（有 3 个以上，它们没有像我的示例中那样编号）。 这是我从这个问题的答案中拼凑出来的。 我省略了对na.locf的两次调用。

columnnames <- c("var1, "var2", "var3")
df1 %>%
 group_by(iso) %>%
 mutate_at(.vars = vars(columnnames), .funs = funs(na.approx(., na.rm = FALSE, rule = 1)))

这会给我一个错误和警告：

approx(x[!na], y[!na], xout, ...) 中的错误：需要至少两个非 NA 值进行插值另外：警告消息：在 xy.coords(x, y, setLab = FALSE) : 由强制引入的 NA

我想我理解错误，但是当我在var1上使用第一段代码时我没有得到它。 我不遵循的警告。 如何将代码应用到数据框中的所有列？ 我还尝试将所有内容放入循环中，循环遍历columnnames但这也不起作用（这可能不是解决此问题的最佳方法）。

Answer 1

将na.approx与method = "constant" （与na.locf相同）和rule = 2 （意味着将最接近的值扩展到前导和尾随 NA）。 如果您希望对 NA 进行线性插值，请删除method="constant"参数。

df1 %>%
  group_by(iso) %>%
  mutate_at(vars(-iso), funs(na.approx(., method = "constant", rule = 2))) %>%
  ungroup

给予：

# A tibble: 6 x 5
  iso    year  var1  var2  var3
  <fct> <dbl> <dbl> <dbl> <dbl>
1 XXX    2005   165    29  2151
2 XXX    2006   160    21  2139
3 XXX    2007   160    21  2139
4 XXX    2008   184     9  3640
5 XXX    2009   184     9  3640
6 YYY    2005   206   461  8049

笔记

df1重现形式的df1是：

df1 <- 
structure(list(iso = structure(c(1L, 1L, 1L, 1L, 1L, 2L), .Label = c("XXX", 
"YYY"), class = "factor"), year = c(2005L, 2006L, 2007L, 2008L, 
2009L, 2005L), var1 = c(165L, 160L, NA, 184L, NA, 206L), var2 = c(29L, 
21L, NA, 9L, NA, 461L), var3 = c(2151L, 2139L, NA, 3640L, NA, 
8049L)), class = "data.frame", row.names = c("1", "2", "3", "4", 
"5", "6"))

Answer 2

我们可以使用mutate_at 。 关键是在vars参数中指定正确的列，它使用与select函数相同的规则。 因此，在这种情况下， vars(starts_with("var"))也将起作用。

library(dplyr)
library(zoo)

df1 %>% 
  group_by(iso) %>%
  mutate_at(vars(-iso, -year), funs(na.approx(., na.rm = FALSE, rule = 1))) %>%
  mutate_at(vars(-iso, -year), funs(na.locf(., na.rm = FALSE))) %>%
  mutate_at(vars(-iso, -year), funs(na.locf(., na.rm = FALSE, fromLast = TRUE)))
# # A tibble: 6 x 5
# # Groups:   iso [2]
#   iso    year  var1  var2  var3
#   <chr> <int> <dbl> <dbl> <dbl>
# 1 XXX    2005   165    29 2151 
# 2 XXX    2006   160    21 2139 
# 3 XXX    2007   172    15 2890.
# 4 XXX    2008   184     9 3640 
# 5 XXX    2009   184     9 3640 
# 6 YYY    2005   206   461 8049

数据

df1 <- read.table(text = "  iso year var1 var2 var3
1 XXX 2005  165   29 2151
2 XXX 2006  160   21 2139
3 XXX 2007   NA   NA   NA
4 XXX 2008  184    9 3640
5 XXX 2009   NA   NA   NA
6 YYY 2005  206  461 8049 ",
                 header = TRUE, stringsAsFactors = FALSE)

Answer 3

您可以使用mutate_at重新编写代码，以便一次性完成转换，如下所示：

library(dplyr)
library(zoo)


df %>% 
  group_by(iso) %>%
  mutate_at(vars(starts_with("var")), 
            funs(na.locf(na.locf(na.approx(., na.rm = FALSE, rule = 1),na.rm=FALSE),
                                                              fromLast=TRUE)))


# # A tibble: 6 x 5
# # Groups: iso [2]
# iso    year  var1   var2  var3
# <chr> <int> <dbl>  <dbl> <dbl>
# 1 XXX    2005   165  29.0   2151
# 2 XXX    2006   160  21.0   2139
# 3 XXX    2007   172  15.0   2890
# 4 XXX    2008   184   9.00  3640
# 5 XXX    2009   184   9.00  3640
# 6 YYY    2005   206 461     8049
#

数据：

df <- read.table(text=
"iso year var1 var2 var3
1 XXX 2005  165   29 2151
2 XXX 2006  160   21 2139
3 XXX 2007   NA   NA   NA
4 XXX 2008  184    9 3640
5 XXX 2009   NA   NA   NA
6 YYY 2005  206  461 8049",
header = TRUE, stringsAsFactors = FALSE)

Answer 4

这是一个基本的解决方案：

ave(df,df$iso, FUN =function(y){
  if(nrow(y) > 1) y[3:5] <- lapply(y[3:5], function(x) approx(y$year,x,y$year,rule=2)$y)
  y
})

#   iso year var1 var2   var3
# 1 XXX 2005  165   29 2151.0
# 2 XXX 2006  160   21 2139.0
# 3 XXX 2007  172   15 2889.5
# 4 XXX 2008  184    9 3640.0
# 5 XXX 2009  184    9 3640.0
# 6 YYY 2005  206  461 8049.0

使用 dplyr 在多列上按组插入 NA

问题描述

4 个解决方案

解决方案1
3 2018-07-13 22:02:25

笔记

解决方案2
2 2018-07-13 18:52:08

解决方案3
2 已采纳 2018-07-13 19:01:58

解决方案4
2 2018-07-13 19:46:24

使用 dplyr 在多列上按组插入 NA

问题描述

4 个解决方案

解决方案1 3 2018-07-13 22:02:25

笔记

解决方案2 2 2018-07-13 18:52:08

解决方案3 2 已采纳 2018-07-13 19:01:58

解决方案4 2 2018-07-13 19:46:24

解决方案1
3 2018-07-13 22:02:25

解决方案2
2 2018-07-13 18:52:08

解决方案3
2 已采纳 2018-07-13 19:01:58

解决方案4
2 2018-07-13 19:46:24