使用dplyr的條件累積和

Question

我的數據框看起來像這樣，我想要兩個單獨的累積列，一個用於基金A，另一個用於基金B.

Name    Event    SalesAmount   Fund    Cum-A(desired)    Cum-B(desired)
John    Webinar   NA            NA        NA               NA
John    Sale     1000           A        1000              NA
John    Sale     2000           B        1000             2000
John    Sale     3000           A        4000             2000
John    Email    NA             NA       4000             2000
Tom     Webinar   NA            NA        NA               NA
Tom     Sale     1000           A        1000              NA
Tom     Sale     2000           B        1000             2000
Tom     Sale     3000           A        4000             2000
Tom     Email    NA             NA       4000             2000

I have tried:
df<-
    df %>%
    group_by(Name)%>%  
    mutate(Cum-A = as.numeric(ifelse(Fund=="A",cumsum(SalesAmount),0)))%>%
    mutate(Cum-B = as.numeric(ifelse(Fund=="B",cumsum(SalesAmount),0)))

但這完全不是我想要的，因為它向我展示了兩個基金的運行總額，盡管只是在基金匹配的時候。 請幫助。

Answer 1

怎么樣：

library(dplyr)

d %>% 
  group_by(Name) %>% 
  mutate(cA=cumsum(ifelse(!is.na(Fund) & Fund=="A",SalesAmount,0))) %>% 
  mutate(cB=cumsum(ifelse(!is.na(Fund) & Fund=="B",SalesAmount,0)))

輸出：

Source: local data frame [10 x 8]
Groups: Name

   Name   Event SalesAmount Fund Cum.A.desired. Cum.B.desired.   cA   cB
1  John Webinar          NA   NA             NA             NA    0    0
2  John    Sale        1000    A           1000             NA 1000    0
3  John    Sale        2000    B           1000           2000 1000 2000
4  John    Sale        3000    A           4000           2000 4000 2000
5  John   Email          NA   NA           4000           2000 4000 2000
6   Tom Webinar          NA   NA             NA             NA    0    0
7   Tom    Sale        1000    A           1000             NA 1000    0
8   Tom    Sale        2000    B           1000           2000 1000 2000
9   Tom    Sale        3000    A           4000           2000 4000 2000
10  Tom   Email          NA   NA           4000           2000 4000 2000

如果需要，之后可以用NA替換結果列中的零：

result$cA[result$cA==0] <- NA
result$cB[result$cB==0] <- NA

您的輸入數據集：

d <- structure(list(Name = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L,     2L, 2L, 2L), .Label = c("John", "Tom"), class = "factor"), Event = structure(c(3L,     2L, 2L, 2L, 1L, 3L, 2L, 2L, 2L, 1L), .Label = c("Email", "Sale",     "Webinar"), class = "factor"), SalesAmount = c(NA, 1000L, 2000L,     3000L, NA, NA, 1000L, 2000L, 3000L, NA), Fund = structure(c(NA,     1L, 2L, 1L, NA, NA, 1L, 2L, 1L, NA), .Label = c("A", "B"), class = "factor"),         Cum.A.desired. = c(NA, 1000L, 1000L, 4000L, 4000L, NA, 1000L,         1000L, 4000L, 4000L), Cum.B.desired. = c(NA, NA, 2000L, 2000L,         2000L, NA, NA, 2000L, 2000L, 2000L)), .Names = c("Name",     "Event", "SalesAmount", "Fund", "Cum.A.desired.", "Cum.B.desired."    ), class = "data.frame", row.names = c(NA, -10L))

Answer 2

這是一種使用zoo和data.table來推廣更多資金的方法：

# prep
require(data.table)
require(zoo)
setDT(d)
d[,Fund:=as.character(Fund)]         # because factors are the worst
uf  <- unique(d[Event=="Sale"]$Fund) # collect set of funds

首先，在相關觀察子集上分配累計銷售額：

for (f in uf) d[(Event=="Sale"&Fund==f),paste0('c',f):=cumsum(SalesAmount),by=Name]

然后，進行最后一次觀察：

d[,paste0('c',uf):=lapply(.SD,na.locf,na.rm=FALSE),.SDcols=paste0('c',uf),by=Name]

Answer 3

您可以通過將所有內容全部轉換為單個mutate來縮短@ Marat的答案：

df %>%
  group_by(Name) %>% 
  mutate(
    cA = cumsum(ifelse(!is.na(Fund) & Fund == "A", SalesAmount, 0)),
    cB = cumsum(ifelse(!is.na(Fund) & Fund == "B", SalesAmount, 0)),
    cA = ifelse(cA == 0, NA, cA),
    cB = ifelse(cB == 0, NA, cB)
  )

使用dplyr的條件累積和

問題描述

3 個解決方案

解決方案1
9 已采納 2015-05-19 23:18:52

解決方案2
3 2015-05-20 00:20:49

解決方案3
2 2015-05-19 23:33:01

使用dplyr的條件累積和

問題描述

3 個解決方案

解決方案1 9 已采納 2015-05-19 23:18:52

解決方案2 3 2015-05-20 00:20:49

解決方案3 2 2015-05-19 23:33:01

解決方案1
9 已采納 2015-05-19 23:18:52

解決方案2
3 2015-05-20 00:20:49

解決方案3
2 2015-05-19 23:33:01