簡體   English   中英

適合分布式,獨立預測

[英]fit in distributed, predict in a stand alone

如何在分布式大數據平台(例如Apache Spark)中訓練(擬合)模型,而又在依賴關系盡可能少的獨立機器(例如JVM)中使用該模型?

我聽說過PMML,但不確定是否足夠。 此外,Spark 2.0還支持持久保存模型,但是我不確定加載和運行這些模型需要什么。

Apache Spark持久性是關於以JSON數據格式保存和加載Spark ML管道(可以將其視為Python的pickle機制或R的RDS機制)。 這些JSON數據結構映射到Spark ML類。 它們在其他平台上沒有意義。

至於PMML,則可以使用JPMML-SparkML庫將Spark ML管道轉換為PMML文檔。 您可以使用JPMML-Evaluator庫執行PMML文檔(無論它們來自Apache Spark,Python還是R)。 如果您使用Apache Maven來管理和構建項目,則可以通過在項目的POM中僅添加一個依賴項聲明來包括JPMML-Evaluator。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM