Sklearn擬合vs預測，列的順序很重要？

Question

假設X1和X2是具有相同列的2個pandas數據幀，但可能以不同的順序排列。 假設模型是某種sklearn模型，如LassoCV。 假設我做model.fit(X1, y) ，然后是model.predict(X2) 。 事實上列是不同的順序是一個問題，還是模型保存權重我的列名？

另外，同樣的問題，但是如果X1和X2以及numpy數組呢？

Answer 1

是的，我相信這很重要，因為sklearn會將pandas DataFrame轉換為值數組（本質上是調用X1.values ），而不是注意列名。 但是，這很容易解決。 只需使用：

X2 = X2[X1.columns]

它會將X2的列重新排序為與X1相同的順序

當然， numpy數組的情況也是如此，因為它會使列中的模型適合於X1 ，因此當您在X2預測時，它只會根據X1列的順序進行預測。

示例：

拿這兩個數據幀：

該模型適用於X1.values ：

array([[1, 5],
       [2, 6],
       [3, 7]])

你預測X2.values ：

>>> X2.values
array([[5, 3],
       [4, 2],
       [6, 1]])

模型無法知道列已切換。 所以手動切換它們：

X2 = X2[X1.columns]

>>> X2
   a  b
0  3  5
1  2  4
2  1  6

Sklearn擬合vs預測，列的順序很重要？

問題描述

1 個解決方案

解決方案1
6 已采納 2018-08-02 22:44:12

Sklearn擬合vs預測，列的順序很重要？

問題描述

1 個解決方案

解決方案1 6 已采納 2018-08-02 22:44:12

解決方案1
6 已采納 2018-08-02 22:44:12