[英]How to run a spark program on cluster from within a separate java program?
我有一个运行单独的小型Spark程序的Java程序,那么如何使我的Java程序在集群上运行小型Spark模块/程序?
例如:我有一个程序名称executor(java program)。
和一些星火程序-加两个数字-减去两个数字
因此,在这种情况下,如何从我的Java程序(即执行程序)在Cluster上运行那些spark程序。
谢谢!!!
检查Spark Job Server Project,让您创建一个共享的contex并从rest接口执行作业: https : //github.com/spark-jobserver/spark-jobserver希望这会有用
可能的解决方案可能是:
编写一个bash脚本并顺序执行Spark程序。
将所有操作写在一个程序中,然后在一个程序中调用每个操作并打印相应的结果。
只编写一个程序,但要使用并行编程的原理。 这意味着并行执行此类操作。 好吧,这取决于您拥有什么类型的数据以及您想要获得什么,很难评论。
您可以通过以下方式使用SparkLauncher:
import org.apache.spark.launcher.SparkLauncher
import scala.collection.JavaConverters._
val env = Map(
"HADOOP_CONF_DIR" -> hadoopConfDir,
"YARN_CONF_DIR" -> yarnConfDir
)
println(env.asJava)
val process = new SparkLauncher(env.asJava)
.setSparkHome(sparkHome)
.setAppResource(jarPath)
.setAppName(appName)
.setMainClass(className) //Main class in your uber spark JAR
.setMaster(master)
//.setConf("spark.driver.memory", "2g") example additional conf prop
.setVerbose(true)
.launch()
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.