繁体   English   中英

线性回归机器学习用海量数据训练模型

[英]Linear Regression Machine Learning training the model with huge data

我正在研究机器学习线性回归问题,其中我的火车文件大约为8GB。

尽管我的Tp具有很高的配置,但它不支持。 因此,除了将整个文件用于训练目的之外,我还可以将训练文件分成10/20个文件,并用这些文件一一训练模型吗?

这种方法行得通还是我必须一口气用全部数据训练模型?

是的,那行得通。 这种方法称为随机梯度下降法,是在数据无法容纳到内存时进行训练的一种标准方法。

随机的意思是“具有随机性”,之所以称为“随机性”,是因为您没有遵循所有数据的实际梯度,而是根据某些数据对梯度进行了近似计算。 即使您不一定总是在正确的方向上进行更新,只要步长足够小并且批处理足够大,该过程仍然可以很好地进行。

但是请注意:您不能在每个文件上都一个接一个地训练它完成。 如果执行此操作,则对第二个文件进行训练将导致它忘记在第一个文件中学习到的值。

相反,您应该对它们所谓的数据“批次”进行培训,并每批执行一个更新步骤。

因此,这很糟糕:

for file in files:
    while not Model.stop_condition():
        Model.train_step(file)

这很好:

while not Model.stop_condition():
    for file in files:
        Model.train_step(file)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM