繁体   English   中英

根据 R 中的条件列名称创建新的数据框列

[英]Create new data frame column based on conditioned column names in R

我正在处理一个大型数据集。 该数据集有一个带有参考代码的列和其他值为 TRUE 或 FALSE 的列。 我正在尝试创建一个新列,用于收集值等于 TRUE 的列的串联名称(或作为列表)。 dataframe 的简化类似于:

data <- data.frame( Reference = c("001", "002", "003", "004", "005"),
                 Column A = c(TRUE, TRUE, FALSE, TRUE, FALSE), 
                 Column B = c(FALSE, TRUE, TRUE, FALSE, FALSE), 
                 Column C = c(TRUE, FALSE, TRUE, FALSE, TRUE))
data

预期的结果是这样的:

参考 A列 B列 专栏C D列
0001 真的 错误的 真的 A 栏,第 C 栏
0002 真的 真的 错误的 A列,B列
0003 错误的 真的 真的 B栏,栏C
0004 真的 错误的 错误的 A列
0005 错误的 错误的 真的 专栏C

我知道如何通过连接值或列名来创建字段,但我不知道如何引入条件,以便它只采用值为 TRUE 的列的名称。

非常感谢您!

使用tidyr::unite()tidyverse解决方案:

library(tidyverse)

data %>%
  mutate(unite(across(starts_with('Column'), ~ ifelse(.x, cur_column(), NA)),
               col = 'Column_D', sep = ', ', na.rm = TRUE))

#   Reference Column_A Column_B Column_C           Column_D
# 1       001     TRUE    FALSE     TRUE Column_A, Column_C
# 2       002     TRUE     TRUE    FALSE Column_A, Column_B
# 3       003    FALSE     TRUE     TRUE Column_B, Column_C
# 4       004     TRUE    FALSE    FALSE           Column_A
# 5       005    FALSE    FALSE     TRUE           Column_C

基地R解决方案

data <- data.frame( Reference = c("001", "002", "003", "004", "005"),
                    Column_A = c(TRUE, TRUE, FALSE, TRUE, FALSE), 
                    Column_B = c(FALSE, TRUE, TRUE, FALSE, FALSE), 
                    Column_C = c(TRUE, FALSE, TRUE, FALSE, TRUE))

L <- apply(data, 1, function(i) which(i == TRUE))
data$Column_D <- lapply(L, function(x) paste0(names(x), collapse = ", "))

#   Reference Column_A Column_B Column_C           Column_D
# 1       001     TRUE    FALSE     TRUE Column_A, Column_C
# 2       002     TRUE     TRUE    FALSE Column_A, Column_B
# 3       003    FALSE     TRUE     TRUE Column_B, Column_C
# 4       004     TRUE    FALSE    FALSE           Column_A
# 5       005    FALSE    FALSE     TRUE           Column_C

另一个dplyr选项:

data %>% 
  rowwise() %>% 
  mutate(Column_D = toString(names(across(starts_with("Column")))[which(c_across(starts_with("Column")))]))

  Reference Column_A Column_B Column_C Column_D          
  <chr>     <lgl>    <lgl>    <lgl>    <chr>             
1 001       TRUE     FALSE    TRUE     Column_A, Column_C
2 002       TRUE     TRUE     FALSE    Column_A, Column_B
3 003       FALSE    TRUE     TRUE     Column_B, Column_C
4 004       TRUE     FALSE    FALSE    Column_A          
5 005       FALSE    FALSE    TRUE     Column_C          

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM