簡體   English   中英

在隨機森林回歸中克服多重共線性,並將所有變量保留在模型中

[英]Overcoming Multicollinearity in Random Forest Regression and still keeping all variables in the model

我是隨機森林回歸的新手。 我在prep1中有300個連續變量(299個預測變量和1個目標變量),其中一些預測變量是高度相關的。 問題是我仍然需要獲取每個預測變量的重要性值,因此消除某些預測變量不是一種選擇。

這是我的問題:

1)有沒有一種方法可以為每棵樹選擇僅高度不相關的變量,如果是,則應如何調整以下代碼?

2)假設1)是,這將解決多重共線性問題嗎?

  bound <- floor(nrow(prep1)/2)         
  df <- prep1[sample(nrow(prep1)), ]            
  train <- df[1:bound, ]             
  test <- df[(bound+1):nrow(df), ]    
  modelFit <- randomForest(continuous_target ~., data = train)
  prediction <- predict(modelFit, test)  

隨機森林具有選擇要替換的樣本以及在這些樣本上隨機選擇特征子集的性質。 根據您的情況,鑒於響應變量中沒有偏斜,因此構建大樹數應使您對所有變量都具有重要性。 盡管這會增加計算復雜性,因為您要為每個袋子多次捕獲相同的重要性。 同樣,多重共線性不會影響預測能力。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM