在 data.frame 中按组显示加权平均值

Question

关于 command by和weighted.mean已经存在，但没有一个能够帮助解决我的问题。 我是 R 新手，更习惯于数据挖掘语言而不是编程。

我有一个数据框，其中包含每个人（观察/行）的收入、教育水平和样本权重。 我想按教育水平计算收入的加权平均值，并且我希望结果与原始数据框的新列中的每个人相关联，如下所示：

obs income education weight incomegroup
1.   1000      A       10    --> display weighted mean of income for education level A
2.   2000      B        1    --> display weighted mean of income for education level B
3.   1500      B        5    --> display weighted mean of income for education level B
4.   2000      A        2    --> display weighted mean of income for education level A

我试过：

data$incomegroup=by(data$education, function(x) weighted.mean(data$income, data$weight))

它不起作用。 加权平均值以某种方式计算并出现在“收入组”列中，但对于整个集合而不是按组或仅针对一组，我不知道。 我阅读了有关包plyr或aggregate但它似乎并没有做我感兴趣的事情。

ave{stats}命令提供了我正在寻找的内容，但仅适用于简单的意思：

data$incomegroup=ave(data$income,data$education,FUN = mean)

它不能与权重一起使用。

提前感谢您的帮助！

Answer 1

如果我们使用mutate ，那么我们可以避免left_join

library(dplyr)
df %>%
   group_by(education) %>% 
   mutate(weighted_income = weighted.mean(income, weight))
#    obs income education weight weighted_income
#  <int>  <int>    <fctr>  <int>           <dbl>
#1     1   1000         A     10        1166.667
#2     2   2000         B      1        1583.333
#3     3   1500         B      5        1583.333
#4     4   2000         A      2        1166.667

Answer 2

尝试使用 dplyr 包，如下所示：

df <- read.table(text = 'obs income education weight   
                          1   1000      A       10     
                          2   2000      B        1     
                          3   1500      B        5     
                          4   2000      A        2', 
                 header = TRUE)     

library(dplyr)

df_summary <- 
  df %>% 
  group_by(education) %>% 
  summarise(weighted_income = weighted.mean(income, weight))

df_summary
# education weighted_income
#     A        1166.667
#     B        1583.333

df_final <- left_join(df, df_summary, by = 'education')

df_final
# obs income education weight weighted_income
#  1   1000         A     10        1166.667
#  2   2000         B      1        1583.333
#  3   1500         B      5        1583.333
#  4   2000         A      2        1166.667

Answer 3

基数 R 中有一个函数weighted.mean 。不幸的是，它不适用于ave 。 一种解决方案是使用data.table

library(data.table)
setDT(data)
data[, incomeGroup := weighted.mean(income, weight), by=education]
data
   income education weight incomeGroup
1:   1000         A     10    1166.667
2:   2000         B      1    1583.333
3:   1500         B      5    1583.333
4:   2000         A      2    1166.667

一种与ave工作的奇怪方法是

ave(df[c("income", "weight")], df$education,
    FUN=function(x) weighted.mean(x$income, x$weight))[[1]]
[1] 1166.667 1583.333 1583.333 1166.667

您将子集 data.frame 提供给函数，然后按分组变量进行分组。 FUN 参数创建一个函数，该函数采用 data.frame 并将weighted.mean应用于结果。 由于最终输出是一个 data.frame， [[1]]返回一个具有所需结果的向量。

请注意，这只是证明这是可能的——我不推荐这种方法， data.table技术更清晰，并且在大于 1000 个观察值的数据集上会更快。

在 data.frame 中按组显示加权平均值

问题描述

3 个解决方案

解决方案1
10 已采纳 2016-07-21 17:39:56

解决方案2
8 2016-07-21 16:16:26

解决方案3
5 2016-07-21 16:27:44

在 data.frame 中按组显示加权平均值

问题描述

3 个解决方案

解决方案1 10 已采纳 2016-07-21 17:39:56

解决方案2 8 2016-07-21 16:16:26

解决方案3 5 2016-07-21 16:27:44

解决方案1
10 已采纳 2016-07-21 17:39:56

解决方案2
8 2016-07-21 16:16:26

解决方案3
5 2016-07-21 16:27:44