[英]How to deal with co-linearity of dummy variables for linear regression?
我在家庭特征數據集中使用scikit-learn
LogisticRegression
,並試圖了解如何准備自變量。
我創建了二進制虛擬變量來代替分類變量。 例如可變DWELLING_TYPE
其中有3個可能值DetachedHouse
, SemiDetached
和Apartment
已被替換為3個二進制變量DWELLING_TYPE_DetachedHouse
, DWELLING_TYPE_SemiDetached
和DWELLING_TYPE_Apartment that each has the value
1 or
0`。
顯然,這3個變量是相互依賴的(共線性的),因為如果這些變量之一為1
,則其他2個必須為0
。 我的理解是對於Logistic回歸應將共線性最小化,那么我應該從輸入矩陣中忽略這些變量之一嗎?
是。 這是一個好習慣。 將類別變量轉換為虛擬變量時,可以刪除其中一個虛擬變量。 它將減少輸入功能的冗余。
在python中,您可以使用pd.get_dummies
pd.get_dummies(df, columns=categorical_columns, drop_first=True)
將drop_first參數設置為True即可為您工作。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.