如何使用dplyr基于行数据生成新列？

Question

我想在数据框中添加一个新列，该数据框基于行方式计算。 假设我有一个这样的数据框：

x <-as.data.frame(matrix(1:10, 5, 2))

  V1 V2
1  1  6
2  2  7
3  3  8
4  4  9
5  5 10

如果我想做一些rowwise操作来生成一个新列，我可以使用rowwise（）和do（）来完成它。 例如：

y <- rowwise(x) %>% do (foo = .$V1 * .$V2)

我甚至可以将其附加到现有数据框中：

y <- rowwise(x) %>% bind_cols(do (., foo = .$V1 * .$V2))

这一切都有效，但结果并不是我想要的。 y $ foo中的值是列表，而不是数字。

  V1 V2 foo
1  1  6   6
2  2  7  14
3  3  8  24
4  4  9  36
5  5 10  50

看起来正确，但事实并非如此。

class(y$foo)
[1] "list"

那么，有两个问题：

有没有办法使结果数字而不是列表？
有没有更好的方法来接近这个？

更新：
这更接近我想要做的事情。 鉴于此功能：

pts <- 11:20
z <- function(x1, x2) {
  min(x1*x2*pts)
}

这不会产生我的期望：

y <- x %>% mutate(foo = z(V1, V2))
  V1 V2 foo
1  1  6  66
2  2  7  66
3  3  8  66
4  4  9  66
5  5 10  66

这样做：

y <-rowwise(x) %>% bind_cols( do (., data.frame(foo = z(.$V1, .$V2))))
  V1 V2 foo
1  1  6  66
2  2  7 154
3  3  8 264
4  4  9 396
5  5 10 550

为什么？ 有没有更好的办法？

Answer 1

我通常不相信像R这样的矢量化语言中的行方式操作。在你的情况下，你可以用简单的矩阵乘法来解决这个问题。

您可以按如下方式定义z

z <- function(x1, x2) {
  do.call(pmin, as.data.frame(tcrossprod(x1 * x2, pts)))
}

比一个简单的mutate会做

x %>% mutate(foo = z(V1, V2))
#   V1 V2 foo
# 1  1  6  66
# 2  2  7 154
# 3  3  8 264
# 4  4  9 396
# 5  5 10 550

您还可以使用matrixStats::rowMins函数（完全向量化）来增强性能

library(matrixStats)

z <- function(x1, x2) {
  rowMins(tcrossprod(x1 * x2, pts))
}

x %>% mutate(foo = z(V1, V2))
#   V1 V2 foo
# 1  1  6  66
# 2  2  7 154
# 3  3  8 264
# 4  4  9 396
# 5  5 10 550

Answer 2

您应该在do语句中返回data.frame ：

y <- rowwise(x) %>% bind_cols(do(., data.frame(foo = .$V1 * .$V2)))
y
##   V1 V2 foo
## 1  1  6   6
## 2  2  7  14
## 3  3  8  24
## 4  4  9  36
## 5  5 10  50
y$foo
## [1]  6 14 24 36 50

在您更新的问题中，您使用mutate语句在链中缺少rowwise ，但在链中使用do语句进行rowwise 。 只需按行添加rowwise获得相同的结果。

x %>% rowwise %>% mutate(foo = z(V1, V2))
## Source: local data frame [5 x 3]
## Groups: <by row>
## 
##   V1 V2 foo
## 1  1  6  66
## 2  2  7 154
## 3  3  8 264
## 4  4  9 396
## 5  5 10 550

Answer 3

x <-as.data.frame(matrix(1:10, 5, 2))

foo <- apply(x , 1 , function(x){
  prod(x)
})

#[1]  6 14 24 36 50

class(foo)

#[1] "numeric"

df_final <- cbind(x , foo)

如何使用dplyr基于行数据生成新列？

问题描述

3 个解决方案

解决方案1
6 2015-05-20 08:36:46

解决方案2
4 已采纳 2015-05-20 06:27:19

解决方案3
1 2015-05-20 06:15:31

如何使用dplyr基于行数据生成新列？

问题描述

3 个解决方案

解决方案1 6 2015-05-20 08:36:46

解决方案2 4 已采纳 2015-05-20 06:27:19

解决方案3 1 2015-05-20 06:15:31

解决方案1
6 2015-05-20 08:36:46

解决方案2
4 已采纳 2015-05-20 06:27:19

解决方案3
1 2015-05-20 06:15:31