簡體   English   中英

在進行回歸分析時如何評估 model 和隨機森林預測?

[英]How to assess the model and prediction of random forest when doing regression analysis?

我知道當使用隨機森林(RF)進行分類時,AUC 通常用於在將其應用於測試數據后評估分類的質量。 但是,我不知道使用 RF 評估回歸質量的參數。 現在我想使用 RF 進行回歸分析,例如使用具有數百個樣本和特征的指標來預測化學品的濃度(數值)。

  1. 第一步是運行 randomForest 以構建回歸 model,其中 y 為連續數字。 我怎么知道 model 是否好,基於均方殘差和 % Var 解釋? 有時我解釋的 % Var 是負數。

  2. 之后,如果 model 很好和/或直接用於測試數據,我得到預測值。 現在我如何評估預測值的好壞? 我在網上閱讀了一些計算的准確性(公式:1-abs(predicted-actual)/actual),這對我來說也很有意義。 但是,我的實際數據集中有許多零值,是否有其他解決方案來評估預測值的准確性?

期待任何建議,並提前致謝。

randomForest R package 帶有一個importance function 可用於確定 Z9DB0F35E6830F5C3 的准確性。 文檔中:

重要性(x, type=NULL, class=NULL, scale=TRUE, ...),其中x是您最初調用 randomForest 時的randomForest

重要性測量有兩種類型。 一個人使用袋外數據的排列來測試 model 的准確性。 另一個使用 GINI 指數。 同樣,從文檔中:

以下是變量重要性度量的定義。 第一個度量是根據置換 OOB 數據計算的:對於每棵樹,記錄數據袋外部分的預測誤差(分類錯誤率,回歸的 MSE)。 然后在排列每個預測變量后進行相同的操作。 然后將兩者之間的差異對所有樹進行平均,並通過差異的標准偏差進行歸一化。 如果變量的差異標准差等於 0,則不進行除法(但在這種情況下,平均值幾乎總是等於 0)。

第二個衡量標准是在變量上拆分節點雜質的總減少量,對所有樹進行平均。 對於分類,節點雜質通過基尼指數來衡量。 對於回歸,它通過殘差平方和來衡量。

有關更多信息,您可能會做的更簡單的重要性檢查,實際上比其他任何事情都更健全,是使用稱為最佳常數 model 的東西。 最佳常數 model 有一個常數 output,它是測試數據集中所有響應的平均值。 可以假定最佳常數 model 是可能的最粗略的 model。 對於給定的一組測試數據,您可以將隨機森林 model 與最佳常數 model 的平均性能進行比較。 如果后者的性能至少比前者高出 3-5 倍,那么您的 RF model 就不是很好。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM