按字符和缺失條件計算每行的列數

Question

我想按字符和缺失條件計算每行的列數。

例如，我有這個數據集test 。

我想創建num列，計算缺失值或空值中“not”的列數。

a<-c("aa","bb","cc","dd","",NA)
b<-c("",NA,"aa","","","dd")
c<-c("aa","",NA,NA,"cc","dd")
d<-c("aa","bb","",NA,"cc","dd")
test<-data.frame(cbind(a,b,c,d))

     a    b    c    d
1   aa        aa   aa
2   bb <NA>        bb
3   cc   aa <NA>     
4   dd      <NA> <NA>
5             cc   cc
6 <NA>   dd   dd   dd

我想計算包含NA和空值的列數，例如

     a    b    c    d   num
1   aa        aa   aa   3
2   bb <NA>        bb   2
3   cc   aa <NA>        2
4   dd      <NA> <NA>   1
5             cc   cc   2
6 <NA>   dd   dd   dd   3

我在其他帖子中嘗試了一些方法，比如rowSums

按條件 (>) 計算每行的列數

> test$num<-rowSums(test!=c("",NA),na.rm=T)
> test
     a    b    c    d num
1   aa        aa   aa   3
2   bb <NA>        bb   0
3   cc   aa <NA>        2
4   dd      <NA> <NA>   0
5             cc   cc   2
6 <NA>   dd   dd   dd   0

但是，它返回錯誤的數字，我找不到原因。

你能告訴我如何解決這個問題嗎？

Answer 1

您可以使用rowSums來計算每行中NA或空值的數量，然后從數據框中的列數中減去它。

test$num <- ncol(test) - rowSums(is.na(test) | test == "")
test
#     a    b    c    d num
#1   aa        aa   aa   3
#2   bb <NA>        bb   2
#3   cc   aa <NA>        2
#4   dd      <NA> <NA>   1
#5             cc   cc   2
#6 <NA>   dd   dd   dd   3

Answer 2

使用rowSums另一個想法是用 NA 替換空，即

rowSums(!is.na(replace(test, test == '', NA)))
#[1] 3 2 2 1 2 3

Answer 3

您可以使用nchar + rowSums

test$num <- rowSums(nchar(as.matrix(test))>1,na.rm = TRUE)

或%in% + rowSums

test$num <- rowSums(`dim<-`(!as.matrix(test) %in% c("",NA),dim(test)))

以至於

> test
     a    b    c    d num
1   aa        aa   aa   3
2   bb <NA>        bb   2
3   cc   aa <NA>        2
4   dd      <NA> <NA>   1
5             cc   cc   2
6 <NA>   dd   dd   dd   3

Answer 4

tidyverse 中的這種方法如何，它還會告訴您有多少列包含 NA 或空字符串？

a<-c("aa","bb","cc","dd","",NA)
b<-c("",NA,"aa","","","dd")
c<-c("aa","",NA,NA,"cc","dd")
d<-c("aa","bb","",NA,"cc","dd")
test<-data.frame(cbind(a,b,c,d))

library(magrittr) #import the pipe operator

num_cols <- test %>% 
    tibble::rowid_to_column("row_id") %>% #1st add a rowid column 
    dplyr::group_by(row_id) %>% #split the data into single row groups (i.e. 
                                #row vectors)
    tidyr::nest() %>% #turn it into a list column called data
    dplyr::mutate(num_NAs = purrr::map_dbl(data, #loop over the data column of row 
                                                  #vectors using map_dbl
                                     ~sum(is.na(.))), #count the number of NAs
                  num_empty = purrr::map_dbl(data, 
                                         #count the empty strings 
                                         ~sum(. == "", na.rm = T)),
                  num_values = purrr::map_dbl(data, 
                                          #count columns without NAs or 
                                          #missing values (what you asked for)
                                          ~length(.)-sum(num_NAs, num_empty))
            ) %>%
    dplyr::ungroup() %>% #remove the grouping structure
    dplyr::select(num_NAs, num_empty, num_values) #extract only the variables you need

test_v2 <- cbind(test, num_cols)
test_v2  

     a    b    c    d num_NAs num_empty num_values
1   aa        aa   aa       0         1          3
2   bb <NA>        bb       1         1          2
3   cc   aa <NA>            1         1          2
4   dd      <NA> <NA>       2         1          1
5             cc   cc       0         2          2
6 <NA>   dd   dd   dd       1         0          3

按字符和缺失條件計算每行的列數

問題描述

4 個解決方案

解決方案1
4 已采納 2020-02-07 08:22:49

解決方案2
3 2020-02-07 08:29:21

解決方案3
3 2020-02-07 08:34:34

解決方案4
2 2020-02-07 10:15:19

按字符和缺失條件計算每行的列數

問題描述

4 個解決方案

解決方案1 4 已采納 2020-02-07 08:22:49

解決方案2 3 2020-02-07 08:29:21

解決方案3 3 2020-02-07 08:34:34

解決方案4 2 2020-02-07 10:15:19

解決方案1
4 已采納 2020-02-07 08:22:49

解決方案2
3 2020-02-07 08:29:21

解決方案3
3 2020-02-07 08:34:34

解決方案4
2 2020-02-07 10:15:19