簡體 English 中英

在進行回歸分析時如何評估 model 和隨機森林預測？

[英]How to assess the model and prediction of random forest when doing regression analysis?

原文 2020-08-13 09:35:53 2 1 r/ random-forest

我知道當使用隨機森林（RF）進行分類時，AUC 通常用於在將其應用於測試數據后評估分類的質量。 但是，我不知道使用 RF 評估回歸質量的參數。 現在我想使用 RF 進行回歸分析，例如使用具有數百個樣本和特征的指標來預測化學品的濃度（數值）。

第一步是運行 randomForest 以構建回歸 model，其中 y 為連續數字。 我怎么知道 model 是否好，基於均方殘差和 % Var 解釋？ 有時我解釋的 % Var 是負數。
之后，如果 model 很好和/或直接用於測試數據，我得到預測值。 現在我如何評估預測值的好壞？ 我在網上閱讀了一些計算的准確性（公式：1-abs(predicted-actual)/actual），這對我來說也很有意義。 但是，我的實際數據集中有許多零值，是否有其他解決方案來評估預測值的准確性？

期待任何建議，並提前致謝。

1 個解決方案

randomForest R package 帶有一個importance function 可用於確定 Z9DB0F35E6830F5C3 的准確性。 從文檔中：

重要性(x, type=NULL, class=NULL, scale=TRUE, ...)，其中x是您最初調用 randomForest 時的randomForest 。

重要性測量有兩種類型。 一個人使用袋外數據的排列來測試 model 的准確性。 另一個使用 GINI 指數。 同樣，從文檔中：

以下是變量重要性度量的定義。 第一個度量是根據置換 OOB 數據計算的：對於每棵樹，記錄數據袋外部分的預測誤差（分類錯誤率，回歸的 MSE）。 然后在排列每個預測變量后進行相同的操作。 然后將兩者之間的差異對所有樹進行平均，並通過差異的標准偏差進行歸一化。 如果變量的差異標准差等於 0，則不進行除法（但在這種情況下，平均值幾乎總是等於 0）。

第二個衡量標准是在變量上拆分節點雜質的總減少量，對所有樹進行平均。 對於分類，節點雜質通過基尼指數來衡量。 對於回歸，它通過殘差平方和來衡量。

有關更多信息，您可能會做的更簡單的重要性檢查，實際上比其他任何事情都更健全，是使用稱為最佳常數 model 的東西。 最佳常數 model 有一個常數 output，它是測試數據集中所有響應的平均值。 可以假定最佳常數 model 是可能的最粗略的 model。 對於給定的一組測試數據，您可以將隨機森林 model 與最佳常數 model 的平均性能進行比較。 如果后者的性能至少比前者高出 3-5 倍，那么您的 RF model 就不是很好。

隨機森林預測模型

[英]random forest prediction model

隨機森林模型中預測結果的差異

[英]Difference of prediction results in random forest model

如何計算 R 中隨機森林回歸模型的置信度

[英]how to calculate the confidence level for random forest regression model in R

如何調整隨機森林代碼以進行質量預測

[英]How to tune random forest code for quality prediction

從隨機森林模型中提取樹的子集進行預測

[英]Extract a subset of tree from random forest model for prediction

使用R？從隨機森林模型生成預測柵格。

[英]Generating prediction raster from Random Forest model using R?

當給定數據集中缺少“預測”列時，如何使用隨機森林預測測試數據？

[英]How to predict on the Test data using random forest when “prediction” column is missing in the data set given?

找出變量如何影響時間序列隨機森林回歸 model 的 output

[英]Finding how variable affect output of time-series random-forest regression model

在隨機森林回歸中克服多重共線性，並將所有變量保留在模型中

[英]Overcoming Multicollinearity in Random Forest Regression and still keeping all variables in the model

為隨機森林回歸模型設置 ntree 和 mtry 的值

[英]setting values for ntree and mtry for random forest regression model

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 隨機森林預測模型隨機森林模型中預測結果的差異如何計算 R 中隨機森林回歸模型的置信度如何調整隨機森林代碼以進行質量預測從隨機森林模型中提取樹的子集進行預測使用R？從隨機森林模型生成預測柵格。當給定數據集中缺少“預測”列時，如何使用隨機森林預測測試數據？找出變量如何影響時間序列隨機森林回歸 model 的 output 在隨機森林回歸中克服多重共線性，並將所有變量保留在模型中為隨機森林回歸模型設置 ntree 和 mtry 的值

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM