簡體   English   中英

如何訓練多元線性回歸模型以找到變量的最佳組合?

[英]How to train a multiple linear regression model to find the best combination of variables?

我想運行一個包含大量變量的線性回歸模型,我想要一個 R 函數來迭代這些變量的良好組合並給出最佳組合。

glmulti 包將相當有效地做到這一點:

自動模型選擇和模型平均。 為 glm 和其他函數提供包裝器,使用指定的響應和解釋變量自動生成所有可能的模型(在用戶設置的約束下),並根據某些信息標准(AIC、AICc 或 BIC)找到最佳模型。 可以處理非常大量的候選模型。 當無法對候選人進行詳盡篩選時,具有遺傳算法以找到最佳模型。

未經請求的建議如下:

然而。 顱骨 顱骨 顱骨 請注意,雖然這種方法可以找到最小化樣本內誤差(實際數據的擬合優度)的模型,但它有兩個主要問題,應該讓您在使用它時三思而后行。

  • 這種類型的數據驅動模型選擇幾乎總是會破壞您做出可靠推斷(計算 p 值、置信區間等)的能力。 請參閱此 CrossValidated 問題
  • 它可能會過度擬合您的數據(盡管使用包描述中列出的信息標准將對此有所幫助)

有許多不同的方法來表征“最佳”模型,但 AIC 是一種常見的方法,基礎 R 提供step() ,包MASS提供stepAIC()

summary(lm1 <- lm(Fertility ~ ., data = swiss))
slm1 <- step(lm1)
summary(slm1)
slm1$anova

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM