汇总数据框中的行

Question

我有这种格式的data.frame ：

df <- data.frame(time = seq(0.2,4,0.2), behavior = c(rep(0,4),rep(1,4),rep(2,4),rep(0,4),rep(1,4)), n1 = rnorm(20), n2 = rnorm(20))

因此， df中的每一行都是一个时间点（实际时间由df$time表示），而df$behavior表示在该时间点进行的实验中观察到的行为。

我想根据相同的连续df$behavior值（即相同的观察到的行为）聚合data.frame 。 应该对df$time求和，并将得到的df$n1 ， df$n2 ，...列平均为df$time的总和。

因此，对于此示例，结果将是：

> agg.df
  time behavior          n1          n2
1  2.0        0 -1.19640776 -1.78875416
2  5.2        1 -0.52219794  0.15352409
3  8.4        2  0.40486487 -0.12017916
4 11.6        0  0.15282416 -0.08090696
5 14.8        1  0.05377323 -0.01250031

最有效的方法是什么？

Answer 1

这是使用dplyr一种方法。 由于您在df中使用不带set.seed rnorm ，因此我的结果与您的结果不同。

df %>%
    group_by(group = cumsum(c(T, diff(behavior) != 0))) %>% # assigning groups
    summarise(Time = sum(time),
              ave.n1 = sum(n1) / Time,
              ave.n2 = sum(n2) / Time)


# group Time      ave.n1      ave.n2
#1    1  2.0  0.68164245 -1.57266432
#2    2  5.2 -0.26419520  0.19598772
#3    3  8.4 -0.04105184  0.24406783
#4    4 11.6  0.10536325 -0.28962844
#5    5 14.8 -0.09449933 -0.02142792

如果您有n1-n200，则可以执行以下操作。 请注意，您的n1-n200被覆盖。 您可以做mutate_each(funs(./time), vars = matches("^n")) 。 这将创建200个列，其列名称如var1，var2。 您需要自己替换名称。 对于当前版本的dplyr此重命名部分有些痛苦。 但是，例如，您可以使用gsub轻松完成此操作。

df %>%
    group_by(group = cumsum(c(T, diff(behavior) != 0))) %>%
    summarise_each(funs(sum = sum(., na.rm = TRUE))) %>%
    mutate_each(funs(./time), matches("^n")) %>%
    select(-behavior)

如果要保持原始行为，可以执行以下操作。

df %>%
    group_by(group = cumsum(c(T, diff(behavior) != 0))) %>%
    summarise(behavior = behavior[1]) -> foo;
    df %>%
    group_by(group = cumsum(c(T, diff(behavior) != 0))) %>%
    summarise(Time = sum(time),
              ave.n1 = sum(n1) / Time,
              ave.n2 = sum(n2) / Time) %>%
    do(cbind(.,foo[,2]))

# group Time      ave.n1      ave.n2 behavior
#1    1  2.0  0.93849292  0.90373785        0
#2    2  5.2  0.26211881 -0.11678684        1
#3    3  8.4  0.12171471  0.15838066        2
#4    4 11.6  0.11046081  0.17450358        0
#5    5 14.8 -0.06480093  0.03401513        1

汇总数据框中的行

问题描述

1 个解决方案

解决方案1
2 已采纳 2014-11-15 01:35:50

汇总数据框中的行

问题描述

1 个解决方案

解决方案1 2 已采纳 2014-11-15 01:35:50

解决方案1
2 已采纳 2014-11-15 01:35:50