根据另一列中的值聚合一列中的数据

Question

我知道有一种简单的方法可以做到这一点……但是，我想不通。

我的 R 脚本中有一个数据框，如下所示：

A      B    C
1.2    4    8
2.3    4    9
2.3    6    0
1.2    3    3
3.4    2    1 
1.2    5    1

请注意，A、B 和 C 是列名。 我试图获得这样的变量：

sum1 <- [the sum of all B values such that A is 1.2]
num1 <- [the number of times A is 1.2]

有什么简单的方法可以做到这一点？ 我基本上想得到一个如下所示的数据框：

    A     num     totalB
   1.2    3       12
   etc    etc     etc

其中“num”是特定 A 值出现的次数，“totalB”是给定 A 值的 B 值的总和。

Answer 1

我会使用aggregate来获取两个聚合，然后merge它们merge到一个数据框中：

> df
    A B C
1 1.2 4 8
2 2.3 4 9
3 2.3 6 0
4 1.2 3 3
5 3.4 2 1
6 1.2 5 1

> num <- aggregate(B~A,df,length)
> names(num)[2] <- 'num'

> totalB <- aggregate(B~A,df,sum)
> names(totalB)[2] <- 'totalB'

> merge(num,totalB)
    A num totalB
1 1.2   3     12
2 2.3   2     10
3 3.4   1      2

Answer 2

在dplyr ：

library(tidyverse)
A <- c(1.2, 2.3, 2.3, 1.2, 3.4, 1.2)
B <- c(4, 4, 6, 3, 2, 5)
C <- c(8, 9, 0, 3, 1, 1)

df <- data_frame(A, B, C)

df %>%
    group_by(A) %>% 
    summarise(num = n(),
              totalB = sum(B))

Answer 3

这是一个使用data.table来提高内存和时间效率的解决方案

library(data.table)
DT <- as.data.table(df)
DT[, list(totalB = sum(B), num = .N), by = A]

仅对C==1行进行子集化（根据对@aix 答案的评论）

DT[C==1, list(totalB = sum(B), num = .N), by = A]

Answer 4

这是使用plyr包的解决方案

plyr::ddply(df, .(A), summarize, num = length(A), totalB = sum(B))

根据另一列中的值聚合一列中的数据

问题描述

4 个解决方案

解决方案1
19 已采纳 2011-09-26 20:16:44

解决方案2
6 2017-06-08 22:27:54

解决方案3
5 2012-09-13 04:24:38

解决方案4
5 2011-09-26 20:30:30

根据另一列中的值聚合一列中的数据

问题描述

4 个解决方案

解决方案1 19 已采纳 2011-09-26 20:16:44

解决方案2 6 2017-06-08 22:27:54

解决方案3 5 2012-09-13 04:24:38

解决方案4 5 2011-09-26 20:30:30

解决方案1
19 已采纳 2011-09-26 20:16:44

解决方案2
6 2017-06-08 22:27:54

解决方案3
5 2012-09-13 04:24:38

解决方案4
5 2011-09-26 20:30:30