繁体   English   中英

sklearn大数据的线性回归

[英]sklearn linear regression for large data

sklearn.LinearRegression是否支持在线/增量学习?

我有100组数据,我试图完全实现它们。 对于每个组,有超过10000个实例和~10个特征,因此如果我构造一个巨大的矩阵(10 ^ 6乘10),它将导致sklearn的内存错误。 如果我每次都可以使用新组的批量样本更新回归量,那将是很好的。

我发现这篇文章是相关的,但是接受的解决方案适用于使用单个新数据(仅一个实例)而不是批量样本的在线学习。

看看linear_model.SGDRegressor ,它使用随机梯度学习一个线性模型。

一般来说,sklearn有许多允许“ partial_fit ”的模型,它们对于不适合RAM的中型到大型数据集都非常有用。

并非所有算法都可以逐步学习,而不会立即查看所有实例。 也就是说,实现partial_fit API的所有估算器都是小批量学习的候选者,也称为“在线学习”。

这里是越过缩放策略增量学习的文章。 为了您的目的,请查看sklearn.linear_model.SGDRegressor类。 它是真正的在线,因此内存和收敛速度不受批量大小的影响。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM