繁体   English   中英

删除所有观察值具有相同值的列会影响我的模型吗?

[英]Will removing a column having same values for all observations affect my model?

我的数据集中的一列对于所有观察/行具有相同的值。 我应该在构建机器学习模型时删除该列吗?

删除此列会影响我的模型/性能指标吗?

如果我用不同的常量值替换所有值,它会改变模型/性能指标吗?

如果数据集中的一列具有相同的值,您可以删除此列,因为它对您的模型区分两个不同的标签没有任何帮助,而另一方面,它甚至可能通过创建对您的模型产生负面影响数据中的偏差。

例如:假设您有两种不同的水果,例如一种是青苹果,一种是番石榴。 然后,这两种水果将具有相同的颜色,即“绿色”,因此基本上意味着您无法根据颜色区分这两种水果,但是如果它们是两种不同颜色的水果,您可以使用这个特性来区分它们。

希望它有助于澄清您应该如何处理具有相同观察集的此类列。

谢谢。

机器学习模型只不过是一个数学方程,即

y = f(x)

其中

y = 目标/相关变量

f(x) = 自变量(在我们的例子中是一个包含训练/测试数据的 DataFrame)

所以从技术上讲,ML 模型量化和估计 X 的值是多少,可能的输出 y 是什么。

假设单个整列是常数。 因此,y 和 f(x=constant) 之间的关系是没有意义的,因为对于 y 的任何值,x 将保持不变。 除了 y 也是常数的唯一选项之外,没有任何数学关系是可能的。 我们可以安全地假设情况并非如此,否则为什么要构建一个模型来获得恒定值。

因此,我们可以安全地删除任何常量列,它不会向 DataFrame 添加任何数据变化以节省计算时间,因为该列在任何意义上都不会影响 y。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM