如何在R中的統計模型中識別使用的變量

Question

我正在使用隨機森林生成的模型預測數據。 如何確定模型中使用的預測變量？ 我無法擺脫錯誤：“ eval（predvars，data，env）中的錯誤：找不到對象'ENERGY'”。

ENERGY列是我要預測的列，在模型生成中不用作變量。 並且此列在varImp（DATA）$ importance中不存在。

predict(model_RF2, newdata = predData)

eval（predvars，data，env）中的錯誤：找不到對象“ ENERGY”

varImp(DATA)$importance

作為此代碼的回復，列出了60列的名稱； 而ENERGY不在此向量中。

還有其他方法可以識別模型中使用的列嗎？

Answer 1

預測的重要部分是驗證新數據框（在您的情況下為predData）具有與原始數據相同的列名。 因此，如果您的原始數據具有ENERGY列，則必須確保predData也具有該列。

Quote：“ newdata數據框包含需要進行預測的值。公式（對象）右側引用的預測變量必須按名稱出現在newdata中。”

Answer 2

RF算法顯示了用於預測某個變量的重要性。 但是，它並沒有顯示將要預測的變量的重要性。 由於您要預測“能源”變量，因此在列表中看不到它的名稱是正常的。 也;

importance(model_RF2)

和

varImpPlot(model_RF2)

可以向您顯示模型中使用的列（變量）。 varImpPlot還描繪了一個漂亮的圖形。