計算 dplyr 中列子集中的行計數

Question

我想使用 dplyr 跨列的子集逐行計算某些文本（或因子級別）的實例數。

這是輸入：

> input_df
  num_col_1 num_col_2 text_col_1 text_col_2
1         1         4        yes        yes
2         2         5         no        yes
3         3         6         no       <NA>

這是所需的輸出：

> output_df
  num_col_1 num_col_2 text_col_1 text_col_2 sum_yes
1         1         4        yes        yes       2
2         2         5         no        yes       1
3         3         6         no       <NA>       0

在sum_yes我們計算了該行中“是”的數量。

我嘗試了兩種方法：

嘗試的解決方案1：

text_cols = c("text_col_1","text_col_2")
df = input_df %>% mutate(sum_yes = rowSums( select(text_cols) == "yes" ), na.rm = TRUE)

錯誤：

Error in mutate_impl(.data, dots) : 
  Evaluation error: no applicable method for 'select_' applied to an object of class "character".

嘗試的解決方案2：

text_cols = c("text_col_1","text_col_2")
df = input_df %>% select(text_cols) %>% rowsum("yes", na.rm = TRUE)

錯誤：

Error in rowsum.data.frame(., "yes", na.rm = TRUE) : 
  incorrect length for 'group'

Answer 1

我們可以使用mutate並為每行計算“是”數量的總和。

library(dplyr)    
df %>%  mutate(sum_yes = rowSums(.[text_cols] == "yes"))

#   num_col_1 num_col_2 text_col_1 text_col_2 sum_yes
#*     <int>     <int> <fct>      <fct>        <int>
#1         1         4 yes        yes              2
#2         2         5 no         yes              1
#3         3         6 no         <NA>             0

靈感來自這個答案。

rowwise與c_across ：

df %>%
  rowwise() %>%
  mutate(sum_yes = sum(c_across(all_of(text_cols)) == "yes"))

do與rowwise

df %>%
  rowwise() %>%
  do((.) %>% as.data.frame %>% 
  mutate(sum_yes = sum(.=="yes")))

沒有do和rowwise

df %>%
 select(text_cols) %>%
 mutate(sum_yes = rowSums(. == "yes"))

在基礎R中，它實際上更簡單

df$sum_yes <- rowSums(df[text_cols] == "yes")

Answer 2

我們也可以使用reduce和map

library(tidyverse)
df %>% 
  select(text_cols) %>% 
  map(~ .x == "yes" & !is.na(.x)) %>% 
              reduce(`+`) %>%
  bind_cols(df, sum_yes = .)
#   num_col_1 num_col_2 text_col_1 text_col_2 sum_yes
#1         1         4        yes        yes       2
#2         2         5         no        yes       1
#3         3         6         no       <NA>       0

計算 dplyr 中列子集中的行計數

問題描述

2 個解決方案

解決方案1
6 已采納 2018-08-10 09:26:35

解決方案2
1 2018-08-10 14:00:35

計算 dplyr 中列子集中的行計數

問題描述

2 個解決方案

解決方案1 6 已采納 2018-08-10 09:26:35

解決方案2 1 2018-08-10 14:00:35

解決方案1
6 已采納 2018-08-10 09:26:35

解決方案2
1 2018-08-10 14:00:35