在整个集群中运行带有Spark提交的Spark作业

Question

我最近在Amazon EMR上设置了一个具有1个主节点和2个从属节点的Spark集群。

我可以运行pyspark ，并使用spark-submit提交作业。

但是，当我创建一个独立的作业（如job.py ，会创建一个SparkContext，如下所示：

sc=SparkContext("local", "App Name")

这似乎不正确，但我不确定该放在哪里。

当我提交作业时，我确定它没有利用整个集群。

如果要对整个群集运行作业，例如每个从属设备有4个进程，我该怎么做

a。）作为参数spark-submit给spark-submit

b。）作为参数传递给脚本本身中的SparkContext() 。

Answer 1

您可以使用创建火花上下文

conf = SparkConf().setAppName(appName)
sc = SparkContext(conf=conf)

并且您必须使用以下命令将程序提交给spark-submit以进行独立的集群

./bin/spark-submit --master spark://<sparkMasterIP>:7077 code.py

对于Mesos集群

./bin/spark-submit --master mesos://207.184.161.138:7077 code.py

对于YARN集群

./bin/spark-submit --master yarn --deploy-mode cluster code.py

对于YARN主设备，将从HADOOP_CONF_DIR中读取配置。