[英]Will removing a column having same values for all observations affect my model?
我的数据集中的一列对于所有观察/行具有相同的值。 我应该在构建机器学习模型时删除该列吗?
删除此列会影响我的模型/性能指标吗?
如果我用不同的常量值替换所有值,它会改变模型/性能指标吗?
如果数据集中的一列具有相同的值,您可以删除此列,因为它对您的模型区分两个不同的标签没有任何帮助,而另一方面,它甚至可能通过创建对您的模型产生负面影响数据中的偏差。
例如:假设您有两种不同的水果,例如一种是青苹果,一种是番石榴。 然后,这两种水果将具有相同的颜色,即“绿色”,因此基本上意味着您无法根据颜色区分这两种水果,但是如果它们是两种不同颜色的水果,您可以使用这个特性来区分它们。
希望它有助于澄清您应该如何处理具有相同观察集的此类列。
谢谢。
机器学习模型只不过是一个数学方程,即
其中
所以从技术上讲,ML 模型量化和估计 X 的值是多少,可能的输出 y 是什么。
假设单个整列是常数。 因此,y 和 f(x=constant) 之间的关系是没有意义的,因为对于 y 的任何值,x 将保持不变。 除了 y 也是常数的唯一选项之外,没有任何数学关系是可能的。 我们可以安全地假设情况并非如此,否则为什么要构建一个模型来获得恒定值。
因此,我们可以安全地删除任何常量列,它不会向 DataFrame 添加任何数据变化以节省计算时间,因为该列在任何意义上都不会影响 y。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.