如何从单独的Java程序中在群集上运行Spark程序？

Question

我有一个运行单独的小型Spark程序的Java程序，那么如何使我的Java程序在集群上运行小型Spark模块/程序？

例如：我有一个程序名称executor（java program）。

和一些星火程序-加两个数字-减去两个数字

因此，在这种情况下，如何从我的Java程序（即执行程序）在Cluster上运行那些spark程序。

谢谢！！！

Answer 1

检查Spark Job Server Project，让您创建一个共享的contex并从rest接口执行作业： https : //github.com/spark-jobserver/spark-jobserver希望这会有用

Answer 2

可能的解决方案可能是：

编写一个bash脚本并顺序执行Spark程序。
将所有操作写在一个程序中，然后在一个程序中调用每个操作并打印相应的结果。
只编写一个程序，但要使用并行编程的原理。 这意味着并行执行此类操作。 好吧，这取决于您拥有什么类型的数据以及您想要获得什么，很难评论。

Answer 3

您可以通过以下方式使用SparkLauncher：

import org.apache.spark.launcher.SparkLauncher
import scala.collection.JavaConverters._


val env = Map(
  "HADOOP_CONF_DIR" -> hadoopConfDir,
  "YARN_CONF_DIR" -> yarnConfDir
)

println(env.asJava)
val process = new SparkLauncher(env.asJava)
  .setSparkHome(sparkHome)
  .setAppResource(jarPath)
  .setAppName(appName)
  .setMainClass(className) //Main class in your uber spark JAR 
  .setMaster(master)
  //.setConf("spark.driver.memory", "2g") example additional conf prop
  .setVerbose(true)
  .launch()

如何从单独的Java程序中在群集上运行Spark程序？

问题描述

3 个解决方案

解决方案1
1 2016-01-05 19:10:24

解决方案2
0 2016-02-09 16:56:17

解决方案3
0 2017-05-19 13:17:18

如何从单独的Java程序中在群集上运行Spark程序？

问题描述

3 个解决方案

解决方案1 1 2016-01-05 19:10:24

解决方案2 0 2016-02-09 16:56:17

解决方案3 0 2017-05-19 13:17:18

解决方案1
1 2016-01-05 19:10:24

解决方案2
0 2016-02-09 16:56:17

解决方案3
0 2017-05-19 13:17:18