R将第一行与所有行相加

Question

我正在尝试分析网站数据以进行AB测试。 我的参考点基于experimentName =实验1（控制版本）

  experimentName UniquePageView UniqueFrequency NonUniqueFrequency
1   Experiment 1            459             294                359
2   Experiment 2            440             286                338
3   Experiment 3            428             273                348

我需要做的是，当experimentName =实验1时，对每个UniquePageView，UniqueFrequency和NonUniqueFrequency行求和

例如

UniquePageView WHERE experimentName = 'Experiment 1 ' +  UniquePageView WHERE experimentName = 'Experiment 2 ',
 UniquePageView WHERE experimentName = 'Experiment 1 ' +  UniquePageView WHERE experimentName = 'Experiment 3 '

依此类推（我可以有无限次的实验编号），然后对UniqueFrequency和NonUniqueFrequency做同样的事情（我也可以有无限数量的列）

预期结果：

experimentName  UniquePageView  UniqueFrequency NonUniqueFrequency  Conversion Rate Pooled UniquePageView   Conversion Rate Pooled UniqueFrequency  Conversion Rate Pooled NonUniqueFrequency
1   Experiment 1    459 294 359 918 588 718
2   Experiment 2    440 286 338 899 580 697
3   Experiment 3    428 273 348 887 567 707

这是其背后的数学公式：

    experimentName  UniquePageView  UniqueFrequency NonUniqueFrequency       Conversion Rate Pooled UniquePageView  Conversion Rate Pooled UniqueFrequency  Conversion Rate Pooled NonUniqueFrequency
1   Experiment 1    459 294 359 459 + 459   294 + 294   359 + 359
2   Experiment 2    440 286 338 459 + 440   294 + 286   359 + 338
3   Experiment 3    428 273 348 459 + 428   294 + 273   359 + 348

Answer 1

在基本R中，您可以通过将原始数据帧绑定到初始数据帧（以及仅与“实验1”行重复的版本）（使用cbind ）进行列绑定来一行完成此操作。

cbind(dat, dat[,-1] + dat[rep(which(dat$experimentName == "Experiment 1"), nrow(dat)), -1])
#   experimentName UniquePageView UniqueFrequency NonUniqueFrequency UniquePageView UniqueFrequency
# 1   Experiment 1            459             294                359            918             588
# 2   Experiment 2            440             286                338            899             580
# 3   Experiment 3            428             273                348            887             567
#   NonUniqueFrequency
# 1                718
# 2                697
# 3                707

要在末尾更新列名（假设您将结果数据帧存储在res ），可以使用：

names(res)[4:6] <- c("CombinedPageView", "CombinedUniqueFrequency", "CombinedNonUniqueFrequency")

Answer 2

您知道如何使用dplyr吗？ 如果您是R的新手，这是一个很好的课程。 Dplyr包括功能filter和summarise ，这些都是你需要做的这个问题-很简单！

首先，以您的数据框

df

然后，仅过滤所需的数据，在这种情况下，当ExperimentName =实验1

df
df <- filter(df, experimentName == "Experiment 1")

现在，进行汇总以找到UniquePageView，UniqueFrequency和NonUniqueFrequency的总和

df
df <- filter(df, experimentName == "Experiment 1")
summarise(df, SumUniquePageView = sum(UniquePageView),
              SumUniqueFrequency = sum(UniqueFrequency),
              SumNonUniqueFrequency = sum(NonUniqueFrequency))

这将返回一个小表格，其中包含您要查找的答案。 对于更高级（但更简单）的方法，可以使用magrittr软件包中的管道运算符%>% 。 该代码从先前的语句中借用了该对象，并将其用作进行性语句中的第一个参数，如下所示：

df %>% filter(experimentName == "Experiment 1") %>% summarise(SumUniquePageView = sum(UniquePageView), etc)

如果您还没有那些软件包，可以通过install.packages("dpyr") ， library(dplyr)

R将第一行与所有行相加

问题描述

2 个解决方案

解决方案1
2 已采纳 2015-06-19 18:13:13

解决方案2
0 2015-06-19 18:11:23

R将第一行与所有行相加

问题描述

2 个解决方案

解决方案1 2 已采纳 2015-06-19 18:13:13

解决方案2 0 2015-06-19 18:11:23

解决方案1
2 已采纳 2015-06-19 18:13:13

解决方案2
0 2015-06-19 18:11:23