在 spark ML 2.2.0 中使用 sklearn-python 模型進行預測

Question

我正在使用sklearn在python中處理文本分類問題。 我已經創建了模型並將其保存在pickle 中。

下面是我在 sklearn 中使用的代碼。

vectorizerPipe = Pipeline([('tfidf', TfidfVectorizer(lowercase=True,
        stop_words='english')),
('classification', OneVsRestClassifier(LinearSVC(penalty='l2', loss='hinge'))),])

prd=vectorizerPipe.fit(features_used,labels_used])

f = open(file_path, 'wb')
pickle.dump(prd, f)

有什么方法可以使用相同的泡菜來獲取基於 DataFrame 的 apache spark 而不是基於 RDD 的輸出。 我已經閱讀了以下文章，但沒有找到正確的實施方法。

什么是推薦的分發 scikit-learn-classifier-in-spark 的方式
how-to-do-prediction-with-sklearn-model-inside-spark -> 我在 StackOverflow 上發現了這兩個問題並發現它很有用。

deploy-a-python-model-more-efficiently-over-spark

我是機器學習的初學者。 所以，請原諒我的解釋是幼稚的。 任何相關的示例或實現都會有所幫助。

Answer 1

RDD -> 使用 Spark 觸發數據幀

喜歡：

import spark.implicits._
val testDF = rdd.map {line=>
                      (line._1,line._2)
                     }.toDF("col1","col2")

在 spark ML 2.2.0 中使用 sklearn-python 模型進行預測

問題描述

1 個解決方案

解決方案1
0 2019-12-11 02:50:07

在 spark ML 2.2.0 中使用 sklearn-python 模型進行預測

問題描述

1 個解決方案

解決方案1 0 2019-12-11 02:50:07

解決方案1
0 2019-12-11 02:50:07