如何使用 R 以有效的方式计算新变量？

Question

我有一个包含 900 个观察值和 121 列的数据集。

我必须计算一个新列。

新列是几列相乘和相加的结果。 这些列遵循一种模式。 就像是：

newcolumn= (C42*C82)+(C43*C83)+(C44*C84)+.....(C81*C121).

我怎样才能以更有效的方式做到这一点，而不是像上面那样输入整个公式？

Answer 1

它有助于将您头脑中的矩阵A （在您的情况下忘记前 41 列）划分为两个相关部分， A1和A2 。 然后可以看到这个新列是列乘法A1 * A2的行总和的向量。 因此，例如，

rowSums(M[, 42:81] * M[, 82:121])

给出了答案。

Answer 2

您可以将第 42 至 81 列中的值与第 82 至 121 列中的值逐行进行矩阵乘法（在本例中为内积或点积）。 在 R 中， %*%是矩阵乘法运算符。 这是一个带有虚假数据的示例。

# Fake data
set.seed(2)
dat = as.data.frame(replicate(121, rnorm(5)))

dat$new = apply(dat, 1, function(x) x[42:81] %*% x[82:121])

Answer 3

不如其他答案优雅，但这里有一种使用一些循环解决问题的方法：

for (i in 1:nrow(df)) {     #for each row in the dataframe
  numtest <- 0              #re-initialize your placeholder sum at each row
  for (j in 42:81) {        #for each "multiplied" group that you want to sum up
    numtest <- numtest + (df[i,j] * df[i, j+40])  #add to your placeholder
  }
  df[i, 122] <- numtest     #fill in col 122 with final generated sum.
}

如何使用 R 以有效的方式计算新变量？

问题描述

3 个解决方案

解决方案1
2 2017-12-28 01:40:02

解决方案2
2 2017-12-28 01:40:56

解决方案3
-1 2017-12-28 02:02:09

如何使用 R 以有效的方式计算新变量？

问题描述

3 个解决方案

解决方案1 2 2017-12-28 01:40:02

解决方案2 2 2017-12-28 01:40:56

解决方案3 -1 2017-12-28 02:02:09

解决方案1
2 2017-12-28 01:40:02

解决方案2
2 2017-12-28 01:40:56

解决方案3
-1 2017-12-28 02:02:09