[英]How to use survey to analyze the American Housing Survey data using replicate weights
我正在分析来自美国住房调查的数据,该调查附带重复权重以计算正确的标准误差,在 R 中使用survey
,但我想确保我正确指定了设计。
这是我如何做到的:
svy <- svrepdesign(data = ahs,
weight = ~WEIGHT,
repweights = "REPWEIGHT[0-9]+",
type = "Fay",
rho = 0.5,
scale = 4/160,
rscales = rep(1, 160),
mse = TRUE)
我将rho
设置为0.5
因为在人口普查局发布的使用重复权重指南的第 3.1 节中,他们解释了如何使用 SAS 计算标准误差 ( https://www.census.gov/content/dam/Census/ program-surveys/ahs/tech-documentation/2015/Quick%20Guide%20to%20Estimating%20Variance%20Using%20Replicate%20Weights%202009%20to%20Current.pdf ),他们说使用选项 VARMETHOD=BRR(FAY)指定任何其他选项,并且根据 SAS 文档 ( http://support.sas.com/documentation/onlinedoc/stat/142/surveymeans.pdf ),此参数的默认值为 0.5。
我将mse
设置为TRUE
因为在他们为第 4 节中的标准误差给出的公式中,平方偏差的总和是围绕使用完整样本权重计算的统计量的估计值计算的。
最后,我将scale
设置为4/160
,将rscales
为rep(1, 160)
因为在同一个公式中,平方偏差的总和乘以4/160
但 sum 运算符中没有乘数。
但是,当我查看 Anthony Joseph Damico 在美国住房调查 ( http://asdfree.com/american-housing-survey-ahs.html ) 上的网页时,他是这样做的:
ahs_design <-
svrepdesign(
weights = ~ wgt90geo ,
repweights = "repwgt[1-9]" ,
type = "Fay" ,
rho = ( 1 - 1 / sqrt( 4 ) ) ,
mse = TRUE ,
data = ahs_df
)
忘记 2015 年刚刚改变的权重变量的名称(大概是在他写了那个网页之后),他和我做的一样,只是他没有指定scale
和rscales
。 根据我上面的解释和survey
的文档,在我看来他应该像我一样指定它们,但我以前从未在survey
使用过重复权重,所以我想确定一下。
PS 我发现更奇怪的是,当我尝试不指定scale
和rscales
,我计算的标准误差似乎与我做的时候一样。 这意味着在实践中我如何做可能并不重要,但是由于如果我指定scale
和rscales
,用于计算标准误差的公式应该是不同的,我仍然想了解为什么它似乎没有影响通过survey
计算的标准误差。
PS bis:另一件事我不明白的是,即使人口普查局说它使用了 Fay 的方法并建议使用 SAS 程序,这将导致 Fay 系数为0.5
,但似乎没有任何 Fay它发布的指南中给出的标准误差公式中的系数。 这意味着,如果我要编写自己的代码来使用该公式计算标准误差,结果可能与我使用具有0.5
的rho
的survey
或人口普查局推荐的 SAS 程序计算标准误差时的结果不同,这对我来说没有多大意义。
svrepdesign
不需要用于 Fay 复制权重的scale
或rscales
参数,因为它可以自己计算出来。 这就是拥有已知type
的权重的意义所在。 无论如何,当您指定它们时,我可能应该添加警告。
公式中不需要明确的 Fay 系数。 在构建权重时,将采样权重乘以2-rho
或rho
以获得重复权重。 这一切都已经完成了。 现在您只需要知道如何缩放平方残差。 人口普查局公式(链接的 p6)的乘数为 4/160。 那个 4 是1/(1-rho)^2
- Anthony Damico 的代码有反向转换,从4
算出rho=0.5
。
直接 BRR 的乘数是 1/160 而不是 4/160。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.