R：两个值之间的滞后“累积”差异

Question

我有一个包含许多组（ series ）的 data.frame df ，其中每年都会显示数据area 。 我正在尝试创建一个新列，其中diff是第 1 行和第 2 行区域之间的差异。但我需要继续从“新”差异中减去。 对于每个series这需要按year降序完成。

df<-
structure(list(series = c("A218t23", "A218t23", "A218t23", "A218t23", 
"A218t23", "A218t23", "A218t23", "A218t23", "A218t23"), year = 2018:2010, 
    area = c(16409.3632611811, 274.5866082, 293.8540619, 323.0603775, 
    544.7366938, 108.0737561, 134.8579038, 143.14125, 167.8244576
    )), row.names = c(NA, -9L), groups = structure(list(series = "A218t23", 
    .rows = structure(list(1:9), ptype = integer(0), class = c("vctrs_list_of", 
    "vctrs_vctr", "list"))), row.names = c(NA, -1L), class = c("tbl_df", 
"tbl", "data.frame"), .drop = TRUE), class = c("grouped_df", 
"tbl_df", "tbl", "data.frame"))

我想要的输出如下所示：

因此， 16409 - 275 = 16135然后， 16135 - 294 = 15841等。

我一直在使用的代码：

df_diffs <- df %>%
   dplyr::group_by(series) %>%
   dplyr::mutate(diff = area - dplyr::lag(area, default=0, order_by = desc(year)))

但是，这仅返回area列中行之间的滞后差异。 我正在寻找的结果是“累积”或运行差异。 我已经查看了RcppRoll和其他一些 SO 帖子，但没有运气。 理想情况下，我可以将所有这些都保留在管道框架内，因为我还有其他功能在运行。 如果有办法将第一行中的 NA 替换为该年份的相应面积值，则可获得加分。

非常感谢您的建议！

Answer 1

另一种选择，使用Reduce()


 df %>%
  group_by(series) %>%
  mutate(diff = Reduce("-", area, accumulate = T))

# A tibble: 9 × 4
# Groups:   series [1]
  series   year   area   diff
  <chr>   <int>  <dbl>  <dbl>
1 A218t23  2018 16409. 16409.
2 A218t23  2017   275. 16135.
3 A218t23  2016   294. 15841.
4 A218t23  2015   323. 15518.
5 A218t23  2014   545. 14973.
6 A218t23  2013   108. 14865.
7 A218t23  2012   135. 14730.
8 A218t23  2011   143. 14587.
9 A218t23  2010   168. 14419.

Answer 2

您可以通过调整累积总和来实现这一点。

实际上，您从每组的第一个值开始，然后减去之后的每个值。 如果您认为第一个值之后的每个值都是负数，则累积总和将是您的预期输出。

这是代码：

library(tidyverse)
df = df %>% 
  mutate(series="A") %>% 
  bind_rows(df)


df %>% 
  group_by(series) %>% 
  mutate(
    x = ifelse(row_number()==1, area, -area),
    diff = cumsum(x)
  )
#> # A tibble: 18 x 5
#> # Groups:   series [2]
#>    series   year   area      x   diff
#>    <chr>   <int>  <dbl>  <dbl>  <dbl>
#>  1 A        2018 16409. 16409. 16409.
#>  2 A        2017   275.  -275. 16135.
#>  3 A        2016   294.  -294. 15841.
#>  4 A        2015   323.  -323. 15518.
#>  5 A        2014   545.  -545. 14973.
#>  6 A        2013   108.  -108. 14865.
#>  7 A        2012   135.  -135. 14730.
#>  8 A        2011   143.  -143. 14587.
#>  9 A        2010   168.  -168. 14419.
#> 10 A218t23  2018 16409. 16409. 16409.
#> 11 A218t23  2017   275.  -275. 16135.
#> 12 A218t23  2016   294.  -294. 15841.
#> 13 A218t23  2015   323.  -323. 15518.
#> 14 A218t23  2014   545.  -545. 14973.
#> 15 A218t23  2013   108.  -108. 14865.
#> 16 A218t23  2012   135.  -135. 14730.
#> 17 A218t23  2011   143.  -143. 14587.
#> 18 A218t23  2010   168.  -168. 14419.

^{由reprex 包(v2.0.1) 于 2021 年 11 月 9 日创建}

Answer 3

如果您在 tidyverse 中工作，则可以使用purrr::accumulate ：

library(purrr)
library(dplyr)

df %>% 
  group_by(series) %>% 
  mutate(diff = accumulate(area, ~ .x - .y))

在 purrr 函数中， .x是当前值， .y是前一个值。

与Reduce答案类似，您可以将算术运算符`-` ： accumulate(area, `-`)传递给它。

输出

# A tibble: 9 x 4
# Groups:   series [1]
  series   year   area   diff
  <chr>   <int>  <dbl>  <dbl>
1 A218t23  2018 16409. 16409.
2 A218t23  2017   275. 16135.
3 A218t23  2016   294. 15841.
4 A218t23  2015   323. 15518.
5 A218t23  2014   545. 14973.
6 A218t23  2013   108. 14865.
7 A218t23  2012   135. 14730.
8 A218t23  2011   143. 14587.
9 A218t23  2010   168. 14419.

Answer 4

调整这个答案你可以这样做：

library(dplyr)

df %>%
  dplyr::group_by(series) %>%
  dplyr::mutate(diff = c(area[1L], area[1L] - cumsum(area[-1L])))
#> # A tibble: 9 × 4
#> # Groups:   series [1]
#>   series   year   area   diff
#>   <chr>   <int>  <dbl>  <dbl>
#> 1 A218t23  2018 16409. 16409.
#> 2 A218t23  2017   275. 16135.
#> 3 A218t23  2016   294. 15841.
#> 4 A218t23  2015   323. 15518.
#> 5 A218t23  2014   545. 14973.
#> 6 A218t23  2013   108. 14865.
#> 7 A218t23  2012   135. 14730.
#> 8 A218t23  2011   143. 14587.
#> 9 A218t23  2010   168. 14419.

R：两个值之间的滞后“累积”差异

问题描述

4 个解决方案

解决方案1
3 已采纳 2021-11-09 20:27:13

解决方案2
2 2021-11-09 20:15:59

解决方案3
2 2021-11-09 22:36:36

解决方案4
1 2021-11-09 20:15:33

R：两个值之间的滞后“累积”差异

问题描述

4 个解决方案

解决方案1 3 已采纳 2021-11-09 20:27:13

解决方案2 2 2021-11-09 20:15:59

解决方案3 2 2021-11-09 22:36:36

解决方案4 1 2021-11-09 20:15:33

解决方案1
3 已采纳 2021-11-09 20:27:13

解决方案2
2 2021-11-09 20:15:59

解决方案3
2 2021-11-09 22:36:36

解决方案4
1 2021-11-09 20:15:33