簡體   English   中英

在 spark ML 2.2.0 中使用 sklearn-python 模型進行預測

[英]Using sklearn-python model in spark ML 2.2.0 for prediction

我正在使用sklearnpython處理文本分類問題 我已經創建了模型並將其保存在pickle 中

下面是我在 sklearn 中使用的代碼。

vectorizerPipe = Pipeline([('tfidf', TfidfVectorizer(lowercase=True,
        stop_words='english')),
('classification', OneVsRestClassifier(LinearSVC(penalty='l2', loss='hinge'))),])

prd=vectorizerPipe.fit(features_used,labels_used])

f = open(file_path, 'wb')
pickle.dump(prd, f)

有什么方法可以使用相同的泡菜來獲取基於 DataFrame 的 apache spark 而不是基於 RDD 的輸出。 我已經閱讀了以下文章,但沒有找到正確的實施方法。

  1. 什么是推薦的分發 scikit-learn-classifier-in-spark 的方式

  2. how-to-do-prediction-with-sklearn-model-inside-spark -> 我在 StackOverflow 上發現了這兩個問題並發現它很有用。

deploy-a-python-model-more-efficiently-over-spark

我是機器學習的初學者。 所以,請原諒我的解釋是幼稚的。 任何相關的示例或實現都會有所幫助。

RDD -> 使用 Spark 觸發數據幀

喜歡:

import spark.implicits._
val testDF = rdd.map {line=>
                      (line._1,line._2)
                     }.toDF("col1","col2")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM