繁体   English   中英

适合分布式,独立预测

[英]fit in distributed, predict in a stand alone

如何在分布式大数据平台(例如Apache Spark)中训练(拟合)模型,而又在依赖关系尽可能少的独立机器(例如JVM)中使用该模型?

我听说过PMML,但不确定是否足够。 此外,Spark 2.0还支持持久保存模型,但是我不确定加载和运行这些模型需要什么。

Apache Spark持久性是关于以JSON数据格式保存和加载Spark ML管道(可以将其视为Python的pickle机制或R的RDS机制)。 这些JSON数据结构映射到Spark ML类。 它们在其他平台上没有意义。

至于PMML,则可以使用JPMML-SparkML库将Spark ML管道转换为PMML文档。 您可以使用JPMML-Evaluator库执行PMML文档(无论它们来自Apache Spark,Python还是R)。 如果您使用Apache Maven来管理和构建项目,则可以通过在项目的POM中仅添加一个依赖项声明来包括JPMML-Evaluator。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM