簡體 English 中英

如何有效地序列化scikit-learn分類器

[英]How to efficiently serialize a scikit-learn classifier

原文 2013-07-11 02:31:08 3 2 python/ machine-learning/ pickle/ scikit-learn

什么是序列化scikit-learn分類器的最有效方法？

我目前正在使用Python的標准Pickle模塊來序列化文本分類器，但這會導致一個巨大的泡菜。 序列化對象可能是100MB或更多，這似乎過多，需要一段時間來生成和存儲。 我已經完成了與Weka類似的工作，等效的序列化分類器通常只有幾MB。

scikit-learn可能會在pickle中緩存訓練數據或其他無關信息嗎？ 如果是這樣，我怎樣才能加快並減少序列化scikit-learn分類器的大小？

classifier = Pipeline([
    ('vectorizer', CountVectorizer(ngram_range=(1,4))),
    ('tfidf', TfidfTransformer()),
    ('clf', OneVsRestClassifier(LinearSVC())),
])

2 個解決方案

對於大型文本數據集，使用散列技巧：用TfidfVectorizer替換HashingVectorizer （可能與管道中的TfidfTransformer堆疊）：pickle會快得多，因為你不必再存儲詞匯dict了，如上所述在這個問題中：

如何減少Scikit-Learn Vectorizers的內存使用量？

您還可以使用joblib.dump並傳入壓縮。 我注意到我的分類器pickle轉儲使用選項compress = 3減少了~16倍。

序列化adaboost分類器scikit-learn

[英]serialize adaboost classifier scikit-learn

Scikit學習DictVectorizer到分類器

[英]Scikit-learn DictVectorizer to Classifier

如何並行化 scikit-learn SVM (SVC) 分類器的 .predict() 方法？

[英]How to parallelise .predict() method of a scikit-learn SVM (SVC) Classifier?

如何將分類器升級到最新版本的 scikit-learn

[英]How to upgrade the classifier to the latest version of scikit-learn

如何保存使用矢量化器、管道和 GridSearchV 的 scikit-learn 分類器？

[英]How to save a scikit-learn classifier that utilizes a vectorizer, a pipeline and GridSearchV?

如何獲取scikit-learn SVM分類器的所有alpha值？

[英]How to get all alpha values of scikit-learn SVM classifier?

為自己的分類器編寫 scikit-learn 測試

[英]Writing scikit-learn tests for own classifier

調整Scikit-Learn分類器的HOG功能

[英]Resize HOG feature for Scikit-Learn classifier

Scikit-learn：覆蓋分類器中的類方法

[英]Scikit-learn: overriding a class method in a classifier

在scikit-learn中使用SVC分類器進行錯誤的預測？

[英]Wrong prediction with SVC classifier in scikit-learn?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 序列化adaboost分類器scikit-learn Scikit學習DictVectorizer到分類器如何並行化 scikit-learn SVM (SVC) 分類器的 .predict() 方法？如何將分類器升級到最新版本的 scikit-learn 如何保存使用矢量化器、管道和 GridSearchV 的 scikit-learn 分類器？如何獲取scikit-learn SVM分類器的所有alpha值？為自己的分類器編寫 scikit-learn 測試調整Scikit-Learn分類器的HOG功能 Scikit-learn：覆蓋分類器中的類方法在scikit-learn中使用SVC分類器進行錯誤的預測？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM