簡體   English   中英

訓練零件的邏輯回歸模型以獲取大數據

[英]Train a logistic regression model in parts for big data

預處理后,我的數據集包括160萬行和17000列。 我想對該數據使用邏輯回歸,但是每次加載數據集時,該過程都會被終止。 有沒有一種方法可以訓練塊的邏輯回歸模型,而每次迭代都會更新系數。 sklearn支持我的問題的任何技術嗎?

首先,請閱讀此內容 在數據集上訓練LR的時間有點高。 為了避免這種情況,您可以在sklearn中使用LR的熱啟動參數,並遍歷數據塊。

warm_start:bool,默認值:False設置為True時,請重用上一次調用的解決方案以適合初始化,否則,只需擦除以前的解決方案即可。 對於liblinear求解器無用。 請參閱詞匯表。

(從這里開始

更准確地說:

warm_start當在同一數據集上反復擬合估算器時,但是對於多個參數值(例如在網格搜索中找到使性能最大化的值),可以重用從先前參數值中學到的模型內容,從而節省時間。 當warm_start為true時, 現有的擬合模型屬性an用於在隨后的fit調用中初始化新模型

(從這里開始

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM