如何在NA發生后丟棄觀察組內的觀察結果？

Question

我正在嘗試清理我的數據。 其中一個標准是我需要一個不間斷的變量“資產”序列，但我有一些NA。 但是，我不能簡單地刪除NA觀測值，但需要刪除NA事件后的所有后續觀測值。

這是一個例子：

productreference<-c(1,1,1,1,2,2,2,3,3,3,3,4,4,4,5,5,5,5)
Year<-c(2000,2001,2002,2003,1999,2000,2001,2005,2006,2007,2008,1998,1999,2000,2000,2001,2002,2003)
assets<-c(2,3,NA,2,34,NA,45,1,23,34,56,56,67,23,23,NA,14,NA)
mydf<-data.frame(productreference,Year,assets)
mydf

#    productreference Year assets
# 1                 1 2000      2
# 2                 1 2001      3
# 3                 1 2002     NA
# 4                 1 2003      2
# 5                 2 1999     34
# 6                 2 2000     NA
# 7                 2 2001     45
# 8                 3 2005      1
# 9                 3 2006     23
# 10                3 2007     34
# 11                3 2008     56
# 12                4 1998     56
# 13                4 1999     67
# 14                4 2000     23
# 15                5 2000     23
# 16                5 2001     NA
# 17                5 2002     14
# 18                5 2003     NA

我已經看到有一種方法可以使用plyr按組執行功能，我也可以創建一個0-1的列，其中0表示資產有一個有效的條目，1表示缺少NA的值。

mydf$missing<-ifelse(mydf$assets>=0,0,1)
mydf[c("missing")][is.na(mydf[c("missing")])] <- 1

我有一個非常大的數據集，所以無法手動刪除行，非常感謝您的幫助！

Answer 1

我相信這就是你想要的：

library(dplyr)
group_by(mydf, productreference) %>%
    filter(cumsum(is.na(assets)) == 0)
# Source: local data frame [11 x 3]
# Groups: productreference [5]
# 
#    productreference  Year assets
#               (dbl) (dbl)  (dbl)
# 1                 1  2000      2
# 2                 1  2001      3
# 3                 2  1999     34
# 4                 3  2005      1
# 5                 3  2006     23
# 6                 3  2007     34
# 7                 3  2008     56
# 8                 4  1998     56
# 9                 4  1999     67
# 10                4  2000     23
# 11                5  2000     23

Answer 2

這是使用data.table的相同方法：

library(data.table)
dt <- as.data.table(mydf)

dt[,nas:= cumsum(is.na(assets)),by="productreference"][nas==0]

#    productreference Year assets nas
# 1:                1 2000      2   0
# 2:                1 2001      3   0
# 3:                2 1999     34   0
# 4:                3 2005      1   0
# 5:                3 2006     23   0
# 6:                3 2007     34   0
# 7:                3 2008     56   0
# 8:                4 1998     56   0
# 9:                4 1999     67   0
#10:                4 2000     23   0
#11:                5 2000     23   0

Answer 3

這是一個base R選項

mydf[unsplit(lapply(split(mydf, mydf$productreference),
     function(x) cumsum(is.na(x$assets))==0), mydf$productreference),]    
#   productreference Year assets
#1                 1 2000      2
#2                 1 2001      3
#5                 2 1999     34
#8                 3 2005      1
#9                 3 2006     23
#10                3 2007     34
#11                3 2008     56
#12                4 1998     56
#13                4 1999     67
#14                4 2000     23
#15                5 2000     23

或者是data.table的選項

library(data.table)
setDT(mydf)[, if(any(is.na(assets))) .SD[seq(which(is.na(assets))[1]-1)] 
                    else .SD, by = productreference]

Answer 4

你可以使用base R和for循環來完成它。 此代碼比其他答案中的某些代碼稍長。 在循環中，我們通過productreference對mydf進行子集，對於每個子集，我們查找第一次出現的assets==NA ，並排除該行和所有后續行。

mydf2 <- NULL
for (i in 1:max(mydf$productreference)){
  s1 <- mydf[mydf$productreference==i,]
  s2 <- s1[1:ifelse(all(!is.na(s1$assets)), NROW(s1), min(which(is.na(s1$assets)==T))-1),]
  mydf2 <- rbind(mydf2, s2)
  mydf2 <- mydf2[!is.na(mydf2$assets),]
}
mydf2

如何在NA發生后丟棄觀察組內的觀察結果？

問題描述

4 個解決方案

解決方案1
5 2016-06-15 21:52:46

解決方案2
3 2016-06-15 22:11:18

解決方案3
2 已采納 2016-06-16 02:32:50

解決方案4
1 2016-06-16 03:08:20

如何在NA發生后丟棄觀察組內的觀察結果？

問題描述

4 個解決方案

解決方案1 5 2016-06-15 21:52:46

解決方案2 3 2016-06-15 22:11:18

解決方案3 2 已采納 2016-06-16 02:32:50

解決方案4 1 2016-06-16 03:08:20

解決方案1
5 2016-06-15 21:52:46

解決方案2
3 2016-06-15 22:11:18

解決方案3
2 已采納 2016-06-16 02:32:50

解決方案4
1 2016-06-16 03:08:20