在dplyr :: summarise中使用數據的功能

Question

假設我有一個data.frame賦予一個號碼后面的功能，現在我想用在summarise中dplyr在新的變量應適用於由另一個變量分組的data.frame此功能。

這是一個愚蠢的例子

df <- data.frame(id=rep(c("A","B"),each=5),diff=rnorm(10))

func<-function(data){
  mean(data$diff)
}

我知道這個例子是使用容易進行summarise(Mean = mean(diff))但點不解決這個例子，但在一般的使用summarise與data.frame的功能

到目前為止，我的嘗試是

df %>% group_by(id) %>% summarise(New = func(.))

但每個組的值都相同，這是整體功能。

希望一切都清楚。

Answer 1

我不確定我了解您要做什么，並且我不熟悉plyr和dplyr軟件包之間的plyr 。 我認為您要嘗試執行的最直接的方法是使用daply ：

> daply(df, .(id), func)
         A          B 
-0.0301488  0.2088815

Answer 2

正如akrun在評論中指出的那樣，您可以使用dplyr do來執行此do ：

df %>% group_by(id) %>% do(data.frame(New=func(.)))

您還可以添加其他變量，盡管必須使用.$ ：

df %>% group_by(id) %>% do(data.frame(New=func(.), SmthElse = sd(.$diff)))
#  id        New  SmthElse
#1  A  0.1934552 1.0932424
#2  B -0.4161216 0.4841031

也就是說，更簡單，更快速的性能解決方案是使用data.table ：

library(data.table)
dt = as.data.table(df) # or convert in place using setDT

dt[, .(New = func(.SD), SmthElse = sd(diff)), by = id]
#   id        New  SmthElse
#1:  A  0.1934552 1.0932424
#2:  B -0.4161216 0.4841031

在dplyr :: summarise中使用數據的功能

問題描述

2 個解決方案

解決方案1
3 2016-04-15 13:12:33

解決方案2
3 2016-04-15 15:18:21

在dplyr :: summarise中使用數據的功能

問題描述

2 個解決方案

解決方案1 3 2016-04-15 13:12:33

解決方案2 3 2016-04-15 15:18:21

解決方案1
3 2016-04-15 13:12:33

解決方案2
3 2016-04-15 15:18:21