簡體   English   中英

dplyr / R 帶復位的累積總和

[英]dplyr / R cumulative sum with reset

如果“當前”總和超過某個閾值,我想使用 dplyr 生成帶有重置的累積總和。 在下面,我想對 'a' 進行 cumsum。

library(dplyr)
library(tibble)

tib <- tibble(
  t = c(1,2,3,4,5,6),
  a = c(2,3,1,2,2,3)
)

# what I want
## thresh = 5
# A tibble: 6 x 4
#         t     a     g     c
#      <dbl> <dbl> <int> <dbl>
#   1  1.00  2.00     0  2.00
#   2  2.00  3.00     0  5.00
#   3  3.00  1.00     1  1.00
#   4  4.00  2.00     1  3.00
#   5  5.00  2.00     1  5.00
#   6  6.00  3.00     2  3.00

# what I want
## thresh = 4
# A tibble: 6 x 4
#         t     a     g     c
#      <dbl> <dbl> <int> <dbl>
#   1  1.00  2.00     0  2.00
#   2  2.00  3.00     0  5.00
#   3  3.00  1.00     1  1.00
#   4  4.00  2.00     1  3.00
#   5  5.00  2.00     1  5.00
#   6  6.00  3.00     2  3.00

# what I want
## thresh = 6
# A tibble: 6 x 4
#         t     a     g     c
#      <dbl> <dbl> <int> <dbl>
#   1  1.00  2.00     0  2.00
#   2  2.00  3.00     0  5.00
#   3  3.00  1.00     0  6.00
#   4  4.00  2.00     1  2.00
#   5  5.00  2.00     1  4.00
#   6  6.00  3.00     1  7.00

我在這里檢查了許多類似的問題(例如, 如果 r 中的值變為負數,則重置 cumsum )並得到了我希望的結果,但沒有。

我試過的變種

thresh <-5
tib %>%
  group_by(g = cumsum(lag(cumsum(a) >= thresh, default = FALSE))) %>%
  mutate(c = cumsum(a)) %>%
  ungroup()

返回

# A tibble: 6 x 4
      t     a     g     c
  <dbl> <dbl> <int> <dbl>
1  1.00  2.00     0  2.00
2  2.00  3.00     0  5.00
3  3.00  1.00     1  1.00
4  4.00  2.00     2  2.00
5  5.00  2.00     3  2.00
6  6.00  3.00     4  3.00

您可以看到“組”在第一次之后沒有被重置。

我想你可以在這里使用accumulate()來幫助。 而且我還制作了一個包裝函數用於不同的閾值

sum_reset_at <- function(thresh) {
  function(x) {
    accumulate(x, ~if_else(.x>=thresh, .y, .x+.y))
  }  
}

tib %>% mutate(c = sum_reset_at(5)(a))
#       t     a     c
#   <dbl> <dbl> <dbl>
# 1     1     2     2
# 2     2     3     5
# 3     3     1     1
# 4     4     2     3
# 5     5     2     5
# 6     6     3     3
tib %>% mutate(c = sum_reset_at(4)(a))
#       t     a     c
#   <dbl> <dbl> <dbl>
# 1     1     2     2
# 2     2     3     5
# 3     3     1     1
# 4     4     2     3
# 5     5     2     5
# 6     6     3     3
tib %>% mutate(c = sum_reset_at(6)(a))
#       t     a     c
#   <dbl> <dbl> <dbl>
# 1     1     2     2
# 2     2     3     5
# 3     3     1     6
# 4     4     2     2
# 5     5     2     4
# 6     6     3     7

如果你對基於cumsum < threshold的團隊建設感興趣

您可以使用以下base:: function:

cumSumReset <- function(x, thresh = 4) {
    ans    <- numeric()
    i      <- 0

    while(length(x) > 0) {
        cs_over <- cumsum(x)
        ntimes <- sum( cs_over <= thresh )
        x      <- x[-(1:ntimes)]
        ans <- c(ans, rep(i, ntimes))
        i   <- i + 1
    }
    return(ans)
}

呼叫:

tib %>% mutate(g = cumSumReset(a, 5))

結果:

#   A tibble: 6 x 3
#      t     a     g
#  <dbl> <dbl> <dbl>
#1     1     2     0
#2     2     3     0
#3     3     1     1
#4     4     2     1
#5     5     2     1
#6     6     3     2

  • 與團體g你現在可以做任何你喜歡的事情。

我知道這是一個有點老的問題,但我在搜索類似問題時遇到了這個問題,因此我想在這里也包含這種替代方法。

MESS有一個內置函數cumsumbinning()這些需求。 由於在這里您需要在停止之前跨越該threshold ,您可以像這樣使用它(使用threshold - 1並在第三個參數中設置cutwhenpassed = TRUE

library(tidyverse)
library(MESS)

tib <- tibble(
  t = c(1,2,3,4,5,6),
  a = c(2,3,1,2,2,3)
)
n <- 5 # threshold

tib %>%
  group_by(g = cumsumbinning(a, n-1, TRUE) -1) %>%
  mutate(c = cumsum(a))
#> # A tibble: 6 x 4
#> # Groups:   g [3]
#>       t     a     g     c
#>   <dbl> <dbl> <dbl> <dbl>
#> 1     1     2     0     2
#> 2     2     3     0     5
#> 3     3     1     1     1
#> 4     4     2     1     3
#> 5     5     2     1     5
#> 6     6     3     2     3

n <- 4 # threshold

tib %>%
  group_by(g = cumsumbinning(a, n-1, TRUE) -1) %>%
  mutate(c = cumsum(a))
#> # A tibble: 6 x 4
#> # Groups:   g [3]
#>       t     a     g     c
#>   <dbl> <dbl> <dbl> <dbl>
#> 1     1     2     0     2
#> 2     2     3     0     5
#> 3     3     1     1     1
#> 4     4     2     1     3
#> 5     5     2     1     5
#> 6     6     3     2     3

n <- 6 # threshold

tib %>%
  group_by(g = cumsumbinning(a, n-1, TRUE) -1) %>%
  mutate(c = cumsum(a))
#> # A tibble: 6 x 4
#> # Groups:   g [2]
#>       t     a     g     c
#>   <dbl> <dbl> <dbl> <dbl>
#> 1     1     2     0     2
#> 2     2     3     0     5
#> 3     3     1     0     6
#> 4     4     2     1     2
#> 5     5     2     1     4
#> 6     6     3     1     7

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM