如何根据变量的均值对 R 中的数据帧中的行进行子集化？

Question

我在 R 中有一个数据框，有 120 个观察值（参与者）。 所有样本的平均年龄为 51 岁（范围 25-90）。 我想随机选择 60 个这些观察值，使其平均值为 40。有没有办法做到这一点？ 我宁愿避免手动修剪以避免可能由此产生的问题。

我感谢可以提供的任何帮助！

Answer 1

如果您将样本限制为具有特定均值，那么它就不是真正的随机样本。 但是，有多种方法可以做到这一点，但没有一种是容易的。 这取决于您样本中的年龄分布，我当然没有。

无论如何，以下数据框将与您的有点相似：

set.seed(772)
df <- data.frame(age = sample(25:90, 120, T), ID = factor(1:120))

我们可以看到它有正确范围的年龄和正确的平均值：

range(df$age)
#> [1] 25 90
mean(df$age)
#> [1] 51.23333

现在，为了让您的样本年龄达到平均 40 岁，您需要优先从年轻群体中取样。 首先，我们将找到“老”和“年轻”参与者的指数：

young <- which(df$age <= 40)
old   <- which(df$age > 40)

现在我们只需要尝试大量样本（通过循环），直到平均值接近 40。为了在不完全截断年龄较大的情况下做到这一点，我们将为每个样本采用 2:1 的年轻人和老年人比例。 为此，您的数据中至少需要 40 名 40 岁以下的参与者，我猜您确实有。

seed <- 1

while(TRUE)
{
  set.seed(seed)
  young_indices <- young[sample(length(young), 40)]
  old_indices   <- old[sample(length(old), 20)]
  indices       <- c(young_indices, old_indices)

  if(abs(mean(df$age[indices]) - 40) < 0.25) break

  seed <- seed + 1
}

sample_df <- df[indices,]

现在sample_df将包含 60 个平均年龄约为 40 岁的独特参与者；

nrow(sample_df)
#> [1] 60
mean(sample_df$age)
#> [1] 40.1

如何根据变量的均值对 R 中的数据帧中的行进行子集化？

问题描述

1 个解决方案

解决方案1
1 已采纳 2020-02-09 01:14:08

如何根据变量的均值对 R 中的数据帧中的行进行子集化？

问题描述

1 个解决方案

解决方案1 1 已采纳 2020-02-09 01:14:08

解决方案1
1 已采纳 2020-02-09 01:14:08