繁体   English   中英

Python 中的分位数回归给出的结果与 R 中的不同

[英]Quantile Regression in Python gives different results than in R

Python 中 statsmodels 包中的 QuantReg 给出的结果与 R 中非常不同,使用的数据如下面的代码所示。

我分别在 Python 和 R 中尝试了 STACKLOSS 数据,结果是一样的。 我想知道数据本身是否在 Python 中引起了一些问题,或者算法的两种实现可能存在一些根本差异,但无法弄清楚。

Python中的代码:

from statsmodels.regression.quantile_regression import QuantReg
y = [0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 662.59, 248.08, 331.25, 182.98, 1085.69, -44.32]
X = [
    [1, 20322.18, 0.00, 0], [1, 19653.34, 0.00, 0],
    [ 1, 0.00, 72712.41, 0], [1, 0.00, 72407.31, 0],
    [1, 0.00, 72407.31, 0], [1, 0.00, 72201.89, 9111],
    [1, 183.52, 0.00, 0], [1, 183.52, 0.00, 0],
    [1, 0.00, 0.00, 2879], [1, 0.00, 0.00, 2698],
    [1, 0.00, 0.00, 0], [1, 0.00, 0.00, 0],
    [1, 0.00, 0.00, 19358], [1, 0.00, 0.00, 19001]
]

print(QuantReg(y, X).fit(q=.5).summary())

在 R 中:

library(quantreg)

y <- c(0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 662.59, 248.08, 331.25, 182.98, 1085.69, -44.32)
X <- matrix(
    c(1, 20322.18, 0.00, 0, 1, 19653.34, 0.00, 0,
     1, 0.00, 72712.41, 0, 1, 0.00, 72407.31, 0,
    1, 0.00, 72407.31, 0, 1, 0.00, 72201.89, 9111,
    1, 183.52, 0.00, 0, 1, 183.52, 0.00, 0,
    1, 0.00, 0.00, 2879, 1, 0.00, 0.00, 2698,
    1, 0.00, 0.00, 0, 1, 0.00, 0.00, 0,
    1, 0.00, 0.00, 19358, 1, 0.00, 0.00, 19001),
    nrow=14, ncol=4, byrow=TRUE
)

rq(y~.-1, data=data.frame(X), tau=.5, method='fn')

R 给出系数 1.829800e+02, -9.003955e-03, -2.527093e-03, -5.697678e-05

而 Python 给出了以下 3.339e-05, -1.671e-09, -4.635e-10, 7.957e-11

任何输入或提示表示赞赏。

我猜这是一个数据问题,参数没有很好地识别。 超过一半的观测值的响应值为零,而所有其他值都大得多。

据我所知,优化算法在 R 和 statsmodels 之间有所不同,尤其是在处理残差接近于零的观察值方面。

如果参数没有很好地识别,也就是说,如果数据在相关范围内没有提供足够的信息,那么实现和优化算法的微小差异会对参数估计产生很大的影响。

这很可能意味着在这种情况下没有估计可以提供精确的参数估计。

R 和 Python 中的优化算法完全不同。 Python 中的QuanReg使用迭代重加权最小二乘法估计分位数回归模型,而 R 包quantreg使用内点法、单纯形法和平滑法来解决优化问题。

结果必须不同,但它们总是彼此接近。 也许您的数据不适合与模型或某种优化算法一起使用。

我注意到了同样的事情。 对我来说,这似乎只是一个数字/缩放问题。 Python 和 RI 都将所有值转换为 z 分数,之后两组 beta 几乎相同,尽管 SE 仍然不同。 在 Python 版本中我也有一个警告“条件数很大,5.66e+06。这可能表明存在很强的多重共线性或其他数值问题。”

我意识到这个问题现在已经快 2 年了,但我认为其他任何答案都没有提到这一点,所以希望这可以帮助任何新读者。

您现在可能已经想通了,但是您需要自己在 python QuantReg 包中添加常量。 使用 sm.addconstant 后,您应该得到相同的结果。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM