scikit-learn中的线性回归模型预测不一致

Question

因此，我建立了具有少量功能的简单线性回归模型。 当我尝试预测新的输入时，输出不一致。 例如：

In [1]: model.predict(X_new)
Out[1]: array([  7.15993216e+08,   1.13548305e+09])

但是，如果我将其添加到原始训练样本上，则会得到非常不同的答案：

In [2]: model.predict(X_training[:1].append(X_new))[1:]
Out[2]: array([  272682.59925699,  1179906.89475647])

这似乎与模型无关（至少在线性回归内）。 我还在管道内部尝试了同样的操作，并获得了sam行为。

有什么想法吗？

Answer 1

这似乎与熊猫数据框的排序顺序有关。 一种解决方案是按相同的列顺序对训练和测试数据集进行预排序。 类似于以下内容：

model.fit(np.array(X_training.sort_index(1)))
model.predict(np.array(new_input.sort_index(1)))

这将列顺序固定在训练和测试阵列中。