繁体   English   中英

使用dplyr进行多组汇总

[英]Using dplyr to summarize by multiple groups

我正在尝试使用 dplyr 来总结基于 2 个组的数据集:“年”和“区域”。 这是数据集的样子:

  Year   Area Num
1 2000 Area 1  99
2 2001 Area 3  85
3 2000 Area 1  60
4 2003 Area 2  90
5 2002 Area 1  40
6 2002 Area 3  30
7 2004 Area 4  10
...

最终结果应该是这个样子:

  Year    Area Mean
1 2000 Area 1  100
2 2000 Area 2   80
3 2000 Area 3   89
4 2001 Area 1   80
5 2001 Area 2   85
6 2001 Area 3   59
7 2002 Area 1   90
8 2002 Area 2   88
... 

请原谅“平均值”的值,它们是虚构的。

示例数据集的代码:

df <- structure(list(
   Year = c(2000, 2001, 2000, 2003, 2002, 2002, 2004), 
   Area = structure(c(1L, 3L, 1L, 2L, 1L, 3L, 4L), 
   .Label = c("Area 1", "Area 2", "Area 3", "Area 4"), 
   class = "factor"), 
   Num = structure(c(7L, 5L, 4L, 6L, 3L, 2L, 1L), 
   .Label = c("10", "30", "40", "60", "85", "90", "99"), 
   class = "factor")), 
   .Names = c("Year", "Area", "Num"), 
   class = "data.frame", row.names = c(NA, -7L))

df$Num <- as.numeric(df$Num)

我尝试过的事情:

df.meanYear <- df %>%
  group_by(Year) %>%
  group_by(Area) %>%
  summarize_each(funs(mean(Num)))

但它只是用平均值代替每个值,而不是预期的结果。

如果可能,请提供替代方法(即非 dplyr)方法,因为我还是 R 的新手。

这是你想要的?

 library(dplyr)
 df <- group_by(df, Year, Area)
 df <- summarise(df, avg = mean(Num))

我们可以使用data.table

library(data.table)
setDT(df)[, .(avg = mean(Num)) , by = .(Year, Area)]

我的代码中有类似的问题,我用.groups属性修复了它:

df %>%
  group_by(Year,Area) %>%
  summarise(avg = mean(Num), .groups="keep")

还通过添加的示例进行了验证( as.numeric损坏的Num值,所以我使用as.numeric(as.character(df$Num))来修复它):

   Year Area     avg
  <dbl> <fct>  <dbl>
1  2000 Area 1  79.5
2  2001 Area 3  85  
3  2002 Area 1  40  
4  2002 Area 3  30  
5  2003 Area 2  90  
6  2004 Area 4  10  

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM