[英]Using sklearn-python model in spark ML 2.2.0 for prediction
我正在使用sklearn在python中處理文本分類問題。 我已經創建了模型並將其保存在pickle 中。
下面是我在 sklearn 中使用的代碼。
vectorizerPipe = Pipeline([('tfidf', TfidfVectorizer(lowercase=True,
stop_words='english')),
('classification', OneVsRestClassifier(LinearSVC(penalty='l2', loss='hinge'))),])
prd=vectorizerPipe.fit(features_used,labels_used])
f = open(file_path, 'wb')
pickle.dump(prd, f)
有什么方法可以使用相同的泡菜來獲取基於 DataFrame 的 apache spark 而不是基於 RDD 的輸出。 我已經閱讀了以下文章,但沒有找到正確的實施方法。
how-to-do-prediction-with-sklearn-model-inside-spark -> 我在 StackOverflow 上發現了這兩個問題並發現它很有用。
deploy-a-python-model-more-efficiently-over-spark
我是機器學習的初學者。 所以,請原諒我的解釋是幼稚的。 任何相關的示例或實現都會有所幫助。
RDD -> 使用 Spark 觸發數據幀
喜歡:
import spark.implicits._
val testDF = rdd.map {line=>
(line._1,line._2)
}.toDF("col1","col2")
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.