簡體   English   中英

sklearn大數據的線性回歸

[英]sklearn linear regression for large data

sklearn.LinearRegression是否支持在線/增量學習?

我有100組數據,我試圖完全實現它們。 對於每個組,有超過10000個實例和~10個特征,因此如果我構造一個巨大的矩陣(10 ^ 6乘10),它將導致sklearn的內存錯誤。 如果我每次都可以使用新組的批量樣本更新回歸量,那將是很好的。

我發現這篇文章是相關的,但是接受的解決方案適用於使用單個新數據(僅一個實例)而不是批量樣本的在線學習。

看看linear_model.SGDRegressor ,它使用隨機梯度學習一個線性模型。

一般來說,sklearn有許多允許“ partial_fit ”的模型,它們對於不適合RAM的中型到大型數據集都非常有用。

並非所有算法都可以逐步學習,而不會立即查看所有實例。 也就是說,實現partial_fit API的所有估算器都是小批量學習的候選者,也稱為“在線學習”。

這里是越過縮放策略增量學習的文章。 為了您的目的,請查看sklearn.linear_model.SGDRegressor類。 它是真正的在線,因此內存和收斂速度不受批量大小的影響。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM