簡體   English   中英

線性回歸如何處理虛擬變量的共線性?

[英]How to deal with co-linearity of dummy variables for linear regression?

我在家庭特征數據集中使用scikit-learn LogisticRegression ,並試圖了解如何准備自變量。

我創建了二進制虛擬變量來代替分類變量。 例如可變DWELLING_TYPE其中有3個可能值DetachedHouseSemiDetachedApartment已被替換為3個二進制變量DWELLING_TYPE_DetachedHouseDWELLING_TYPE_SemiDetached和DWELLING_TYPE_Apartment that each has the value 1 or 0`。

顯然,這3個變量是相互依賴的(共線性的),因為如果這些變量之一為1 ,則其他2個必須為0 我的理解是對於Logistic回歸應將共線性最小化,那么我應該從輸入矩陣中忽略這些變量之一嗎?

是。 這是一個好習慣。 將類別變量轉換為虛擬變量時,可以刪除其中一個虛擬變量。 它將減少輸入功能的冗余。

在python中,您可以使用pd.get_dummies

pd.get_dummies(df, columns=categorical_columns, drop_first=True)

drop_first參數設置為True即可為您工作。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM