[英]sklearn linear regression for large data
sklearn.LinearRegression
是否支持在线/增量学习?
我有100组数据,我试图完全实现它们。 对于每个组,有超过10000个实例和~10个特征,因此如果我构造一个巨大的矩阵(10 ^ 6乘10),它将导致sklearn的内存错误。 如果我每次都可以使用新组的批量样本更新回归量,那将是很好的。
我发现这篇文章是相关的,但是接受的解决方案适用于使用单个新数据(仅一个实例)而不是批量样本的在线学习。
看看linear_model.SGDRegressor
,它使用随机梯度学习一个线性模型。
一般来说,sklearn有许多允许“ partial_fit
”的模型,它们对于不适合RAM的中型到大型数据集都非常有用。
并非所有算法都可以逐步学习,而不会立即查看所有实例。 也就是说,实现partial_fit
API的所有估算器都是小批量学习的候选者,也称为“在线学习”。
这里是越过缩放策略增量学习的文章。 为了您的目的,请查看sklearn.linear_model.SGDRegressor
类。 它是真正的在线,因此内存和收敛速度不受批量大小的影响。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.