Python sci-kit学习（度量）：r2_score和explained_variance_score之间的区别？

Question

我注意到，该r2_score和explained_variance_score都内建sklearn.metrics回归问题的方法。

我一直认为r2_score是模型解释的百分比方差。 它与explained_variance_score有何不同？

你什么时候会选择一个？

谢谢！

Answer 1

我发现的大多数答案（包括此处）都强调R ²和Explained Variance Score之间的区别，即：平均残差（即误差均值）。

然而，留下了一个重要的问题，那就是：我到底为什么要考虑误差均值？

复习：

R ² ：是决定系数，它测量由（最小二乘法）线性回归解释的变异量。

为了评估y的预测值，您可以从不同的角度查看它，如下所示：

方差_{实际_y} × R ²_{实际_y} =方差_预测_{_y}

所以直观地，更多的R ²为更接近1 ，越actual_y和predicted_y将具有相同方差（即相同的扩展）

如前所述，主要区别在于均值误差； 如果我们查看公式，我们会发现这是真的：

R² = 1 - [(Sum of Squared Residuals / n) / Variance_{y_actual}]

Explained Variance Score = 1 - [Variance_{(Y_predicted - Y_actual)} / Variance_{y_actual}]

其中：

Variance(Y_predicted - Y_actual) = (Sum of Squared Residuals - Mean Error) / n

所以，显然唯一的区别是我们从第一个公式中减去了平均误差！ ......但是为什么？

当我们将R ² Score与Explained Variance Score 进行比较时，我们基本上是在检查平均误差； 所以如果 R ² = 解释方差分数，那意味着：平均误差 =零！

平均误差反映了我们的估计量的趋势，即：有偏估计与无偏估计。

总之：

如果您想拥有无偏估计量，以便我们的模型不会低估或高估，您可以考虑考虑均值误差。

Answer 2

好的，看这个例子：

In [123]:
#data
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print metrics.explained_variance_score(y_true, y_pred)
print metrics.r2_score(y_true, y_pred)
0.957173447537
0.948608137045
In [124]:
#what explained_variance_score really is
1-np.cov(np.array(y_true)-np.array(y_pred))/np.cov(y_true)
Out[124]:
0.95717344753747324
In [125]:
#what r^2 really is
1-((np.array(y_true)-np.array(y_pred))**2).sum()/(4*np.array(y_true).std()**2)
Out[125]:
0.94860813704496794
In [126]:
#Notice that the mean residue is not 0
(np.array(y_true)-np.array(y_pred)).mean()
Out[126]:
-0.25
In [127]:
#if the predicted values are different, such that the mean residue IS 0:
y_pred=[2.5, 0.0, 2, 7]
(np.array(y_true)-np.array(y_pred)).mean()
Out[127]:
0.0
In [128]:
#They become the same stuff
print metrics.explained_variance_score(y_true, y_pred)
print metrics.r2_score(y_true, y_pred)
0.982869379015
0.982869379015

因此，当平均残差为 0 时，它们是相同的。 选择哪一个取决于您的需要，即平均残差假设为0？

Python sci-kit学习（度量）：r2_score和explained_variance_score之间的区别？

问题描述

2 个解决方案

解决方案1
31 2018-09-04 10:41:19

总之：

解决方案2
12 已采纳 2014-06-24 06:16:08

Python sci-kit学习（度量）：r2_score和explained_variance_score之间的区别？

问题描述

2 个解决方案

解决方案1 31 2018-09-04 10:41:19

总之：

解决方案2 12 已采纳 2014-06-24 06:16:08

解决方案1
31 2018-09-04 10:41:19

解决方案2
12 已采纳 2014-06-24 06:16:08