繁体   English   中英

R 中的条件总和 – 多列

[英]Conditional sum in R – multiple columns

我试图弄清楚如何从非常大的表(例如,30'000 行和 50 列)中提取一些特定信息。

想象一下我有这个数据框:

S1 <- c(1,2,1,1,3,1)
S2 <- c(2,1,3,2,1,1)
S3 <- c(1,2,2,1,3,1)
S4 <- c(3,3,4,2,3,1)
S5 <- c(3,2,5,3,2,2)
count <- c(10,5,3,1,1,1)
df <- data.frame(count,S1,S2,S3,S4,S5)

例如,当 S1 和 S3 共享相同的值(哪个值无关紧要)但没有其他列具有相同的值时,我需要对“计数”列求和。

在这个例子中,它应该返回值 11,因为我应该只考虑第 1 行和第 4 行中“count”列的值。

在第 2、5 和 6 行中,S1 和 S3 具有相似的值,但我不想考虑它们,因为还有其他列具有相同的值。 最后,不要仅仅因为 S1 和 S3 具有不同的值就考虑第 3 行。

我知道如何在 excel 中轻松完成,但我想知道如何在 R 中完成它。我尝试过来自 dplyr 的 somme 命令,但我失败了。

如果你们中的任何人可以提供帮助,我将不胜感激。

使用dplyr的解决方案。 有两个步骤。 第一个filter函数查找S1 == S3行。 第二个filter_at函数检查除S1S3count所有列都不等于S1 ,这应该与第一个filter函数后的S3相同。

library(dplyr)

df2 <- df %>%
  filter(S1 == S3) %>%
  filter_at(vars(-S1, -S3, -count), all_vars(. != S1))
df2
  count S1 S2 S3 S4 S5
1    10  1  2  1  3  3
2     1  1  2  1  2  3

那么总计数如下。

sum(df2$count)
[1] 11

使用dplyrrowwisefilter

library(dplyr)
df %>%
  rowwise() %>%
  filter(S1==S3 & !S1 %in% c(S2,S4,S5)) %>% 
  pull(count) %>% 
  sum() 
# [1] 11

稍微复杂一点,但它有效。 仅使用 R 基础。 这个问题采取以简单方式比较多列的形式。

sum(df[df$S1==df$S3 & rowSums(sapply(df[,c(3,5,6)],`==`,e2=df$S1)) == 0,1])

[1] 11

最复杂的部分是如何检查多个列。 在这种情况下,我们使用sapply将列c(3,5,6)通过相等 ( '==' ) 与 S1 进行比较,( e2==函数的第二个参数)。

正如 ycw 所提到的,通过向量定义所有列可能有点复杂,因此这种形式允许您检查除我们不需要的列之外的所有列。

sum(df[df$S1==df$S3 & rowSums(sapply(df[,!(colnames(df) %in% c("count", "S1", "S3"))],`==`,e2=df$S1)) == 0,1])

对两个比较应用相同的过程并仅定义相同值的向量:

equals <- c("S1", "S3")
not_equals <- !(colnames(df) %in% c("count", equals))

sum(df[rowSums(sapply(df[,equals,drop=FALSE],`==`,e2=df[equals[1]])) == length(equals) &
           rowSums(sapply(df[,not_equals,drop=FALSE],`==`,e2=df[equals[1]])) == 0, 1])

注意:使用drop=FALSE仅选择数据框的一列,避免“提升到向量”问题或省略,这样:

sum(df[rowSums(sapply(df[equals],`==`,e2=df[equals[1]])) == length(equals) &
           rowSums(sapply(df[not_equals],`==`,e2=df[equals[1]])) == 0, 1])

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM