[英]What is the hypothesis in .get_influence().cooks_distance in python?
[英]Does statsmodels WLS have get_influence() function?
如何從適合 python statsmodels 的 WLS 模型中獲得杠桿作用/get_influence
以http://statsmodels.sourceforge.net/stable/index.html為例
# Load data
dat = sm.datasets.get_rdataset("Guerry", "HistData").data
# Fit regression model (using the natural log of one of the regressors)
results_ols = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()
results_w = smf.wls('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()
我可以打電話
results_ols.get_influence
但不是 results_wls.get_influence()
wls 有等價物嗎?
我也會對 statsmodels 之外的任何解決方案感興趣。
您可以通過對加權變量使用 OLS 來獲得加權變量的影響和異常值度量。
例如,如果 mod_wls 是您的 WLS 模型(模型實例,而不是結果實例),則
res = sm.OLS(mod_wls.wendog, mod_wls.wexog).fit()
infl = res.get_influence()
AFAIK,大多數或所有影響措施都是正確的,但它們是根據加權變量和觀察結果的。 一些影響度量在原始變量方面有一些定義,但這些將不可用。 例如,有兩種方法可以定義 WLS 的帽子矩陣,一種對應於使用上述加權變量,另一種對應於原始變量的影響。
(類似的問題出現在 GLM 和 RLM 中,它們都基於迭代重新加權最小二乘法,例如https://github.com/statsmodels/statsmodels/issues/808
影響和異常值統計尚未擴展到其他模型,主要是因為缺乏對明確處理這種情況的統計文獻的參考,以及不知道可用於單元測試的另一個包中的參考實現。
更新
GLM 現在有一些異常值影響度量https://www.statsmodels.org/dev/generated/statsmodels.genmod.generalized_linear_model.GLMResults.get_influence.html
但對於 WLS 仍然沒有明確的內容)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.