簡體   English   中英

如何決定我是否需要在 R 的回歸中使用權重

[英]How to decide if I need to use weights in regressions in R

我有一個數據集,它結合了一些調查結果和一些人口統計數據。 所有調查結果均按人口密度標准化。 現在我想設計一個模型來查看一些變量之間的關系。 該模型如下所示:

lm(log(violation+1) ~ Wighted.mean + mks + In_ct + Asian + Black + Hispanic + PopDen + MedHouseIncome, data = dt, weights = pop)

我如何確定權重在這里是否有用? 當我刪除它時,我會得到不同的系數,而 R 方較少。 但我覺得這還不夠決定。 誰能給我建議如何決定?

使用 summary(m.lm) 並使用最小估計值(f.ex. <10% 的可變性)和最高 Pr(>|t|) 值(f.ex. > 0.05)刪除權重。

在非常高的水平上:

如果您從調查數據集中獲得權重,他們可能會做很多事情,其中​​最直接的就是允許您抵消調查的抽樣方案。 例如,如果女性相對於男性被過度抽樣,那么權重將反映這一點,並且使用它們的分析對於實際人口的性別平衡而不是數據中的性別平衡來說是正確的。 在您的情況下,它們也可能會抵消標准化。

簡而言之,權重會改變您的估計量(您的估計策略所針對的數量)。 因此,如果您關心您的調查認為您應該關心的數量,例如“代表”特定人群,那么您需要使用其權重。

但事情不可避免地比這更復雜,因為權重可以抵消其他特征,並且當您的模型的協變量包括用於使樣本不平衡的協變量時,或者當您想要特定的條件效果時,權重可能不太必要。

最好的建議是查看調查的變量碼本,看看它認為權重對你有什么作用。 (對於不同的目的可能確實有不同的權重)。 然后在此基礎上做出決定。 當然不是關於模型摘要在有和沒有它們的情況下看起來是否不同。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM