簡體 English 中英

在隨機森林回歸中克服多重共線性，並將所有變量保留在模型中

[英]Overcoming Multicollinearity in Random Forest Regression and still keeping all variables in the model

原文 2016-09-16 17:35:01 6 1 r/ correlation/ random-forest

我是隨機森林回歸的新手。 我在prep1中有300個連續變量（299個預測變量和1個目標變量），其中一些預測變量是高度相關的。 問題是我仍然需要獲取每個預測變量的重要性值，因此消除某些預測變量不是一種選擇。

這是我的問題：

1）有沒有一種方法可以為每棵樹選擇僅高度不相關的變量，如果是，則應如何調整以下代碼？

2）假設1）是，這將解決多重共線性問題嗎？

  bound <- floor(nrow(prep1)/2)         
  df <- prep1[sample(nrow(prep1)), ]            
  train <- df[1:bound, ]             
  test <- df[(bound+1):nrow(df), ]    
  modelFit <- randomForest(continuous_target ~., data = train)
  prediction <- predict(modelFit, test)

1 個解決方案

隨機森林具有選擇要替換的樣本以及在這些樣本上隨機選擇特征子集的性質。 根據您的情況，鑒於響應變量中沒有偏斜，因此構建大樹數應使您對所有變量都具有重要性。 盡管這會增加計算復雜性，因為您要為每個袋子多次捕獲相同的重要性。 同樣，多重共線性不會影響預測能力。

在R Plot隨機森林模型的重要性變量

[英]in R Plot importance variables of Random Forest model

在 R 中將條件變量添加到隨機森林 model

[英]Add conditioning variables to a random forest model in R

如何計算 R 中隨機森林回歸模型的置信度

[英]how to calculate the confidence level for random forest regression model in R

R：隨機森林回歸 model 中的錯誤訓練數據

[英]R: Error training data in random forest regression model

為隨機森林回歸模型設置 ntree 和 mtry 的值

[英]setting values for ntree and mtry for random forest regression model

在進行回歸分析時如何評估 model 和隨機森林預測？

[英]How to assess the model and prediction of random forest when doing regression analysis?

隨機森林對不平衡數據的回歸

[英]regression with random forest on imbalanced data

隨機森林回歸輸出計算

[英]random forest regression output calculation

隨機森林回歸-累積MSE？

[英]Random forest regression - cumulative MSE?

隨機森林與邏輯回歸

[英]Random Forest vs Logistic Regression

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在R Plot隨機森林模型的重要性變量在 R 中將條件變量添加到隨機森林 model 如何計算 R 中隨機森林回歸模型的置信度 R：隨機森林回歸 model 中的錯誤訓練數據為隨機森林回歸模型設置 ntree 和 mtry 的值在進行回歸分析時如何評估 model 和隨機森林預測？隨機森林對不平衡數據的回歸隨機森林回歸輸出計算隨機森林回歸-累積MSE？隨機森林與邏輯回歸

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM