繁体   English   中英

scikit-learn,线性回归中的分类(但数值)特征

[英]scikit-learn, categorical (but numerical) features in Linear Regression

我在 scikit-learn 中使用线性回归,我的数据集包含一些分类但数值特征。 我的意思是有一些特征,比如房子所在地区的价值,用一个介于 1 到 7 之间的 integer 数字表示:这个数字越高,房子的价值就越高。 我是否应该在使用 OneHotEncoder 等编码器进行线性回归之前使用数字预处理表示类别(城市区域)的特征? 还是仅当类别用字符表示时才强制? 先感谢您..

如果我理解正确,您不需要对它们进行一次热编码,因为它们是序数,即顺序是有意义的。 例如,如果数字是产品代码,并且没有感觉 7 是“优于”或“超过”4,那么您可能希望对这些变量进行一次性编码,但在这种情况下,您将丢失信息通过 one-hot 编码。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM