繁体   English   中英

R:为具有部分字符串匹配的一组列名查找每行 > 0 的列数

[英]R: find number of columns > 0 per row for a group of column names with a partial string match

我有一个类似于以下内容的数据框:

ID X A_1_l A_2_m B_1_n B_2_l C_1_m C_2_n C_3_l
X 0 0 0 0 0 0 0
X X 0 0 3 0 0 0 0
X 0 1 0 4 0 1 0
z X 3 4 5 6 2 1 5

第一个字母表示样品,数字表示重复,第二个字母表示批次。 我正在尝试为每个 ID 找到至少一个值 > 0 的样本数,并将这些数字存储在列表中。

这是作为我可以附加到现有数据帧的列表所需的结果:

0,1,3,3

在之前的分析中,我使用strsplit来计算每批的样本总数。

colsList <- colnames(df)
cols <- grep("_", colsList, value=TRUE)
splitList <- strsplit(cols, "_\\d_")
stats <-data.frame(t(as.data.frame.list(splitList)))
rownames(stats)<-NULL
names(stats)<-c("Sample", "Batch")
perSample <- aggregate(Sample ~ Batch, stats, 
                      function(x) length(unique(x))) # number of strains

我能够使用rowSums(df[sapply(df, is.numeric)] > 0)找到值 > 0 的列总数rowSums(df[sapply(df, is.numeric)] > 0)但我似乎无法弄清楚如何将两者结合起来找到总数样本数 > 0

首先过滤数据以仅保留数字列。

使用split.default将数据分组,以便您将所有'A'列放在一组中, 'B'放在另一组中,依此类推。 在每一组返回TRUE如果一个行都有一个值,该值大于0, sum从所有组中的所有值加在一起得到最终计数。

tmp <- Filter(is.numeric, df)

rowSums(sapply(split.default(tmp, sub('_.*', '', names(tmp))), 
        function(x) rowSums(x) > 0))

#[1] 0 1 3 3

我们可以在tidyverse做到这tidyverse

library(dplyr)
library(stringr)
library(tidyr)
df1 %>%  
    select(ID, where(is.numeric)) %>%
    pivot_longer(cols = -ID) %>%
    mutate(name = str_remove(name, "_.*")) %>% 
    group_by(ID, name) %>% 
    summarise(value = sum(value > 0), .groups = 'drop_last') %>% 
    summarise(value = sum(value > 0))
# A tibble: 4 x 2
  ID    value
  <chr> <int>
1 w         0
2 x         1
3 y         3
4 z         3

数据

df1 <- structure(list(ID = c("w", "x", "y", "z"), X = c("X", "X", "X", 
"X"), Y = c("Y", "Y", "Y", "Y"), A_1_l = c(0L, 0L, 0L, 3L), A_2_m = c(0L, 
0L, 1L, 4L), B_1_n = c(0L, 3L, 0L, 5L), B_2_l = c(0L, 0L, 4L, 
6L), C_1_m = c(0L, 0L, 0L, 2L), C_2_n = c(0L, 0L, 1L, 1L), C_3_l = c(0L, 
0L, 0L, 5L)), class = "data.frame", row.names = c(NA, -4L))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM