[英]How to deal with co-linearity of dummy variables for linear regression?
我在家庭特征数据集中使用scikit-learn
LogisticRegression
,并试图了解如何准备自变量。
我创建了二进制虚拟变量来代替分类变量。 例如可变DWELLING_TYPE
其中有3个可能值DetachedHouse
, SemiDetached
和Apartment
已被替换为3个二进制变量DWELLING_TYPE_DetachedHouse
, DWELLING_TYPE_SemiDetached
和DWELLING_TYPE_Apartment that each has the value
1 or
0`。
显然,这3个变量是相互依赖的(共线性的),因为如果这些变量之一为1
,则其他2个必须为0
。 我的理解是对于Logistic回归应将共线性最小化,那么我应该从输入矩阵中忽略这些变量之一吗?
是。 这是一个好习惯。 将类别变量转换为虚拟变量时,可以删除其中一个虚拟变量。 它将减少输入功能的冗余。
在python中,您可以使用pd.get_dummies
pd.get_dummies(df, columns=categorical_columns, drop_first=True)
将drop_first参数设置为True即可为您工作。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.