繁体   English   中英

fit_transform 在机器学习中有什么影响

[英]Whats the impact of fit_transform in machine learning

我们通常采用.fit_transform()X_train.transform()X_test

这是因为它们来自相同的数据集。 如果我们再次将fit_transform()应用于fit_transform() X_test 这将如何影响我们的模型?

例如,如果您应用SimpleImputer来用均值fit_transform数字缺失值,则每次调用fit_transform方法时,您都是:

  • 计算该变量的平均值
  • 用计算的平均值代替缺失值

现在,如果您将fit_transform应用于训练和测试,它可以为每个变量提供 2 个不同的平均值,从而导致 2 个不同的数据处理。

此外,这是另一个不太统计、更实际的问题。 如果您在生产中部署该流程并将此流程应用于单个记录,您将使用哪个“意思”? 火车一号还是测试一号? 或者您fit_transform也将fit_transform应用于该记录,计算一个的平均值?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM