找出每个 id 是否有任何非 NA 值

Question

在以下长格式数据框中（即，每个测量点一行），我想找出哪个人（变量ID ）在Var1和Var2上都只有 NA，哪个人在上至少有一个非 NA 值Var1或Var2 。 那些只有 NA 值的应该在组 0 中，那些至少有一个非 NA 值的应该在组 1 中。

df <- read.table(text=
"ID       Var1   Var2      
800057    NA    NA               
800057    NA    NA           
800057    NA    NA          
800057    NA    1         
800057    NA    NA 
800119    NA    NA 
800119    NA    NA          
800119    NA    NA      
834011     1    NA
834011     3    NA  
834341    NA    NA
834341    5     NA  
834341    NA    NA   
834341    NA    NA   
834341    3     NA", header=TRUE)

我的结果将如下所示：

df <- read.table(text=
"ID       Var1  Var2  Group    
800057    NA    NA   1            
800057    NA    NA   1        
800057    NA    NA   1       
800057    NA    1    1     
800057    NA    NA   1
800119    NA    NA   0
800119    NA    NA   0       
800119    NA    NA   0   
834011     1    NA   1
834011     3    NA   1
834341    NA    NA   1
834341    5     NA   1   
834341    NA    NA   1
834341    NA    2    1
834341    3     NA   1", header=TRUE)

我想尝试使用group_by(ID)和mutate()来创建 Group 变量的解决方案。

Answer 1

您可以使用all ：

library(dplyr)
df %>%
  group_by(ID) %>%
  mutate(Group = as.integer(!all(is.na(Var1) & is.na(Var2))))

#       ID  Var1  Var2 Group
#    <int> <int> <int> <int>
# 1 800057    NA    NA     1
# 2 800057    NA    NA     1
# 3 800057    NA    NA     1
# 4 800057    NA     1     1
# 5 800057    NA    NA     1
# 6 800119    NA    NA     0
# 7 800119    NA    NA     0
# 8 800119    NA    NA     0
# 9 834011     1    NA     1
#10 834011     3    NA     1
#11 834341    NA    NA     1
#12 834341     5    NA     1
#13 834341    NA    NA     1
#14 834341    NA    NA     1
#15 834341     3    NA     1

或者可以更改最后一行以使用any ：

mutate(Group = as.integer(any(!is.na(Var1) | !is.na(Var2))))

Answer 2

另一个dplyr解决方案是将NA行的计数is.na()与每组中的条目计数n() 。 由于我们有两个变量，因此n()需要乘以 2。 比较之前的加号+将布尔值转换为数字值。

library(dplyr)

df %>% 
  group_by(ID) %>% 
  mutate(group = +(sum(is.na(Var1), is.na(Var2)) < 2 * n()))

最后一行可以替换为以下内容以避免进行任何比较。

  mutate(group = +(as.logical(sum(is.na(Var1), is.na(Var2)) - 2 * n())))

#> # A tibble: 15 x 4
#> # Groups:   ID [4]
#>        ID  Var1  Var2 group
#>     <int> <int> <int> <int>
#>  1 800057    NA    NA     1
#>  2 800057    NA    NA     1
#>  3 800057    NA    NA     1
#>  4 800057    NA     1     1
#>  5 800057    NA    NA     1
#>  6 800119    NA    NA     0
#>  7 800119    NA    NA     0
#>  8 800119    NA    NA     0
#>  9 834011     1    NA     1
#> 10 834011     3    NA     1
#> 11 834341    NA    NA     1
#> 12 834341     5    NA     1
#> 13 834341    NA    NA     1
#> 14 834341    NA    NA     1
#> 15 834341     3    NA     1

Answer 3

您可以在base使用一个简单的ifelse()函数。

df$group <- ifelse(is.na(df$Var1) & is.na(df$Var2), 1, 2) 

       ID Var1 Var2 group
1  800057   NA   NA     1
2  800057   NA   NA     1
3  800057   NA   NA     1
4  800057   NA    1     2
5  800057   NA   NA     1
6  800119   NA   NA     1
7  800119   NA   NA     1
8  800119   NA   NA     1
9  834011    1   NA     2
10 834011    3   NA     2
11 834341   NA   NA     1
12 834341    5   NA     2
13 834341   NA   NA     1
14 834341   NA   NA     1
15 834341    3   NA     2

数据：

df <- read.table(text=
"ID       Var1   Var2      
800057    NA    NA               
800057    NA    NA           
800057    NA    NA          
800057    NA    1         
800057    NA    NA 
800119    NA    NA 
800119    NA    NA          
800119    NA    NA      
834011     1    NA
834011     3    NA  
834341    NA    NA
834341    5     NA  
834341    NA    NA   
834341    NA    NA   
834341    3     NA", header=TRUE)

找出每个 id 是否有任何非 NA 值

问题描述

3 个解决方案

解决方案1
4 2020-08-31 14:26:47

解决方案2
2 2020-08-31 15:07:21

解决方案3
1 2020-08-31 14:29:20

数据：

找出每个 id 是否有任何非 NA 值

问题描述

3 个解决方案

解决方案1 4 2020-08-31 14:26:47

解决方案2 2 2020-08-31 15:07:21

解决方案3 1 2020-08-31 14:29:20

数据：

解决方案1
4 2020-08-31 14:26:47

解决方案2
2 2020-08-31 15:07:21

解决方案3
1 2020-08-31 14:29:20