線性回歸如何處理虛擬變量的共線性？

Question

我在家庭特征數據集中使用scikit-learn LogisticRegression ，並試圖了解如何准備自變量。

我創建了二進制虛擬變量來代替分類變量。 例如可變DWELLING_TYPE其中有3個可能值DetachedHouse ， SemiDetached和Apartment已被替換為3個二進制變量DWELLING_TYPE_DetachedHouse ， DWELLING_TYPE_SemiDetached和DWELLING_TYPE_Apartment that each has the value 1 or 0`。

顯然，這3個變量是相互依賴的（共線性的），因為如果這些變量之一為1 ，則其他2個必須為0 。 我的理解是對於Logistic回歸應將共線性最小化，那么我應該從輸入矩陣中忽略這些變量之一嗎？

Answer 1

是。 這是一個好習慣。 將類別變量轉換為虛擬變量時，可以刪除其中一個虛擬變量。 它將減少輸入功能的冗余。

在python中，您可以使用pd.get_dummies

pd.get_dummies(df, columns=categorical_columns, drop_first=True)

將drop_first參數設置為True即可為您工作。

線性回歸如何處理虛擬變量的共線性？

問題描述

1 個解決方案

解決方案1
2 已采納 2018-02-09 05:30:30

線性回歸如何處理虛擬變量的共線性？

問題描述

1 個解決方案

解決方案1 2 已采納 2018-02-09 05:30:30

解決方案1
2 已采納 2018-02-09 05:30:30