繁体   English   中英

线性回归如何处理虚拟变量的共线性?

[英]How to deal with co-linearity of dummy variables for linear regression?

我在家庭特征数据集中使用scikit-learn LogisticRegression ,并试图了解如何准备自变量。

我创建了二进制虚拟变量来代替分类变量。 例如可变DWELLING_TYPE其中有3个可能值DetachedHouseSemiDetachedApartment已被替换为3个二进制变量DWELLING_TYPE_DetachedHouseDWELLING_TYPE_SemiDetached和DWELLING_TYPE_Apartment that each has the value 1 or 0`。

显然,这3个变量是相互依赖的(共线性的),因为如果这些变量之一为1 ,则其他2个必须为0 我的理解是对于Logistic回归应将共线性最小化,那么我应该从输入矩阵中忽略这些变量之一吗?

是。 这是一个好习惯。 将类别变量转换为虚拟变量时,可以删除其中一个虚拟变量。 它将减少输入功能的冗余。

在python中,您可以使用pd.get_dummies

pd.get_dummies(df, columns=categorical_columns, drop_first=True)

drop_first参数设置为True即可为您工作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM