計算R中每年沒有N / A的觀測數

Question

我有一個數據集，我想總結沒有缺失值的觀測數量（用NA表示）。

我的數據類似如下：

data <- read.table(header = TRUE, 
               stringsAsFactors = FALSE, 
               text="CompanyNumber ResponseVariable Year ExplanatoryVariable1 ExplanatoryVariable2
               1 2.5 2000 1 2
               1 4 2001 3 1
               1 3 2002 NA 7
               2 1 2000 3 NA
               2 2.4 2001 0 4
               2 6 2002 2 9
               3 10 2000 NA 3")

我打算使用包dplyr，但這只需要考慮幾年而不是不同的變量：

library(dplyr)
data %>% 
  group_by(Year) %>%
  summarise(number = n())

我怎樣才能獲得以下結果？

                    2000 2001 2002
ExplanatoryVariable1  2   2    1 
ExplanatoryVariable2  2   2    2

Answer 1

要獲得計數，您可以先使用：

library(dplyr)
data %>% 
  group_by(Year) %>% 
  summarise_at(vars(starts_with("Expla")), ~sum(!is.na(.)))
## A tibble: 3 x 3
#   Year ExplanatoryVariable1 ExplanatoryVariable2
#  <int>                <int>                <int>
#1  2000                    2                    2
#2  2001                    2                    2
#3  2002                    1                    2

如果要像問題中所示重新整形，可以使用tidyr函數擴展管道：

library(tidyr)
data %>% 
  group_by(Year) %>% 
  summarise_at(vars(starts_with("Expla")), ~sum(!is.na(.))) %>% 
  gather(var, count, -Year) %>% 
  spread(Year, count)
## A tibble: 2 x 4
#                   var `2000` `2001` `2002`
#*                <chr>  <int>  <int>  <int>
#1 ExplanatoryVariable1      2      2      1
#2 ExplanatoryVariable2      2      2      2

只是讓OP知道，因為他們有~200個解釋變量可供選擇。 您可以使用另一個summarise_at選項來選擇變量。 您可以簡單地命名第一個：last變量，如果它們在數據中正確排序，例如：

data %>% 
  group_by(Year) %>%
  summarise_at(vars(ExplanatoryVariable1:ExplanatoryVariable2), ~sum(!is.na(.)))

要么：

data %>% 
  group_by(Year) %>% 
  summarise_at(3:4, ~sum(!is.na(.)))

或者將變量名稱存儲在向量中並使用：

vars <- names(data)[4:5]
data %>% 
  group_by(Year) %>% 
  summarise_at(vars, ~sum(!is.na(.)))

Answer 2

data %>%
  gather(cat, val, -(1:3)) %>%
  filter(complete.cases(.)) %>%
  group_by(Year, cat) %>%
  summarize(n = n()) %>%
  spread(Year, n)

# # A tibble: 2 x 4
#                    cat `2000` `2001` `2002`
# *                <chr>  <int>  <int>  <int>
# 1 ExplanatoryVariable1      2      2      1
# 2 ExplanatoryVariable2      2      2      2

應該這樣做。 首先將數據堆疊起來，然后簡單地計算年份和每個解釋變量的n。 如果您希望將數據恢復為寬格式，則使用spread ，但無論如何都不spread ，您將獲得兩個變量的計數。

Answer 3

使用基數R：

  do.call(cbind,by(data[3:5], data$Year,function(x) colSums(!is.na(x[-1]))))                       
                      2000 2001 2002
 ExplanatoryVariable1    2    2    1
 ExplanatoryVariable2    2    2    2

對於聚合：

 aggregate(.~Year,data[3:5],function(x) sum(!is.na(x)),na.action = function(x)x)

Answer 4

你可以用基數R中的aggregate來做到這一點。

aggregate(list(ExplanatoryVariable1 = data$ExplanatoryVariable1,
               ExplanatoryVariable2 = data$ExplanatoryVariable2),
          list(Year = data$Year),
          function(x) length(x[!is.na(x)]))
#  Year ExplanatoryVariable1 ExplanatoryVariable2
#1 2000                    2                    2
#2 2001                    2                    2
#3 2002                    1                    2

計算R中每年沒有N / A的觀測數

問題描述

4 個解決方案

解決方案1
7 已采納 2017-08-25 13:32:23

解決方案2
4 2017-08-25 13:33:07

解決方案3
4 2017-08-25 13:52:57

解決方案4
1 2017-08-25 13:45:56

計算R中每年沒有N / A的觀測數

問題描述

4 個解決方案

解決方案1 7 已采納 2017-08-25 13:32:23

解決方案2 4 2017-08-25 13:33:07

解決方案3 4 2017-08-25 13:52:57

解決方案4 1 2017-08-25 13:45:56

解決方案1
7 已采納 2017-08-25 13:32:23

解決方案2
4 2017-08-25 13:33:07

解決方案3
4 2017-08-25 13:52:57

解決方案4
1 2017-08-25 13:45:56