R：按组对NA进行插值

Question

我想在数据帧的变量中执行线性插值，考虑到以下因素：1）两点之间的时间差，2）采集数据的时刻，以及3）用于测量变量的个人。

例如在下一个数据帧中：

 df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
            Individuals=c(1,1,1,1,1,1,1,2,2,2),
            Value=c(1, 2, 3, NA, 5, NA, 7, 5, NA, 7))
  df

我想获得：

 result <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
                Individuals=c(1,1,1,1,1,1,1,2,2,2),
                Value=c(1, 2, 3, 4, 5, 6, 7, 5, 5.5, 6))
 result

我不能只使用包zoo的功能na.approx ，因为所有观察值都不是连续的，有些观察值属于一个人，而其他观察值则属于其他人。 原因是因为如果第二个人第一次对NA感到厌烦，而我将仅使用功能na.approx ，我将使用来自na.approx individual==1来插值individual==2的NA （例如下一个数据帧将出现此类错误）

  df_2 <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
                Individuals=c(1,1,1,1,1,1,1,2,2,2),
                Value=c(1, 2, 3, NA, 5, NA, 7, NA, 5, 7))
  df_2

我试过使用zoo和dplyr软件包：

library(dplyr)
library(zoo)
proof <- df %>%
  group_by(Individuals) %>%
  na.approx(df$Value)

但是我不能在zoo对象中执行group_by 。

您知道如何按组对一个变量中的NA值进行插值吗？

提前致谢，

Answer 1

使用data.frame ，而不是cbind来创建数据。 cbind返回一个矩阵，但是您需要dplyr的数据帧。 然后在mutate使用na.approx 。 我已经注释掉了group_by ，因为您没有在数据中提供分组变量，但是一旦您将分组变量添加到数据框中，该方法就应该起作用。

df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
            Individuals=c(1,1,1,1,1,1,1,2,2,2),
            Value=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10))

library(dplyr)
library(zoo)

df %>%
  group_by(Individuals) %>%
  mutate(ValueInterp = na.approx(Value, na.rm=FALSE))

  time Individuals Value ValueInterp 1 1 1 NA NA 2 2 1 2 2 3 3 1 3 3 4 4 1 NA 4 5 5 1 5 5 6 6 1 NA 6 7 7 1 7 7 8 1 2 8 8 9 2 2 NA 9 10 3 2 10 10

更新：要插入多个列，我们可以使用mutate_at 。 这是带有两个值列的示例。 我们使用mutate_at在列名称中包含"Value"所有列上运行na.approx 。 list(interp=na.approx)告诉mutate_at运行产生新的列名na.approx并添加interp作为后缀，以生成新的列名：

df <- data.frame(time=c(1,2,3,4,5,6,7,1,2,3),
                 Individuals=c(1,1,1,1,1,1,1,2,2,2),
                 Value1=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10),
                 Value2=c(NA, 2, 3, NA, 5, NA, 7, 8, NA, 10)*2)

df %>%
  group_by(Individuals) %>%
  mutate_at(vars(matches("Value")), list(interp=na.approx), na.rm=FALSE)

  time Individuals Value1 Value2 Value1_interp Value2_interp <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> 1 1 1 NA NA NA NA 2 2 1 2 4 2 4 3 3 1 3 6 3 6 4 4 1 NA NA 4 8 5 5 1 5 10 5 10 6 6 1 NA NA 6 12 7 7 1 7 14 7 14 8 1 2 8 16 8 16 9 2 2 NA NA 9 18 10 3 2 10 20 10 20

如果您不想保留原始的未插值的列，则可以执行以下操作：

df %>%
  group_by(Individuals) %>%
  mutate_at(vars(matches("Value")), na.approx, na.rm=FALSE)

Answer 2

我们可以使用data.table

library(data.table)
library(zoo)
setDT(df1)[, ValueInterp:= na.approx(Value, na.rm=TRUE), by = Individual]

R：按组对NA进行插值

问题描述

2 个解决方案

解决方案1
3 已采纳 2015-11-13 16:07:53

解决方案2
3 2015-11-13 16:21:55

R：按组对NA进行插值

问题描述

2 个解决方案

解决方案1 3 已采纳 2015-11-13 16:07:53

解决方案2 3 2015-11-13 16:21:55

解决方案1
3 已采纳 2015-11-13 16:07:53

解决方案2
3 2015-11-13 16:21:55