线性回归机器学习用海量数据训练模型

Question

我正在研究机器学习线性回归问题，其中我的火车文件大约为8GB。

尽管我的Tp具有很高的配置，但它不支持。 因此，除了将整个文件用于训练目的之外，我还可以将训练文件分成10/20个文件，并用这些文件一一训练模型吗？

这种方法行得通还是我必须一口气用全部数据训练模型？

Answer 1

是的，那行得通。 这种方法称为随机梯度下降法，是在数据无法容纳到内存时进行训练的一种标准方法。

随机的意思是“具有随机性”，之所以称为“随机性”，是因为您没有遵循所有数据的实际梯度，而是根据某些数据对梯度进行了近似计算。 即使您不一定总是在正确的方向上进行更新，只要步长足够小并且批处理足够大，该过程仍然可以很好地进行。

但是请注意：您不能在每个文件上都一个接一个地训练它完成。 如果执行此操作，则对第二个文件进行训练将导致它忘记在第一个文件中学习到的值。

相反，您应该对它们所谓的数据“批次”进行培训，并每批执行一个更新步骤。

因此，这很糟糕：

for file in files:
    while not Model.stop_condition():
        Model.train_step(file)

这很好：

while not Model.stop_condition():
    for file in files:
        Model.train_step(file)