线性回归如何处理虚拟变量的共线性？

Question

我在家庭特征数据集中使用scikit-learn LogisticRegression ，并试图了解如何准备自变量。

我创建了二进制虚拟变量来代替分类变量。 例如可变DWELLING_TYPE其中有3个可能值DetachedHouse ， SemiDetached和Apartment已被替换为3个二进制变量DWELLING_TYPE_DetachedHouse ， DWELLING_TYPE_SemiDetached和DWELLING_TYPE_Apartment that each has the value 1 or 0`。

显然，这3个变量是相互依赖的（共线性的），因为如果这些变量之一为1 ，则其他2个必须为0 。 我的理解是对于Logistic回归应将共线性最小化，那么我应该从输入矩阵中忽略这些变量之一吗？

Answer 1

是。 这是一个好习惯。 将类别变量转换为虚拟变量时，可以删除其中一个虚拟变量。 它将减少输入功能的冗余。

在python中，您可以使用pd.get_dummies

pd.get_dummies(df, columns=categorical_columns, drop_first=True)

将drop_first参数设置为True即可为您工作。

线性回归如何处理虚拟变量的共线性？

问题描述

1 个解决方案

解决方案1
2 已采纳 2018-02-09 05:30:30

线性回归如何处理虚拟变量的共线性？

问题描述

1 个解决方案

解决方案1 2 已采纳 2018-02-09 05:30:30

解决方案1
2 已采纳 2018-02-09 05:30:30