![](/img/trans.png)
[英]How to submit spark job from Airflow server to hadoop cluster
[英]How to submit spark Job from locally and connect to Cassandra cluster
任何人都可以讓我知道如何從本地提交spark Job並連接到Cassandra集群。
當前,我通過膩子登錄到Cassandra節點並提交以下dse-spark-submit Job命令后,將提交Spark作業。
命令: dse spark-submit --class ***** --total-executor-cores 6 --executor-memory 2G **/**/**.jar --config-file build/job.conf --args
使用上面的命令,我的spark Job能夠連接到集群及其執行,但是有時會遇到問題。
因此,我想從本地計算機提交Spark作業。 誰能指導我如何做到這一點。
“在本地工作”可能意味着幾件事情
這是我的一些解釋
我出於某些原因不建議這樣做,最大的原因是您的所有作業管理仍將在遠程計算機和集群中的執行者之間進行。 這相當於讓Hadoop Job Tracker在與Hadoop分發版其余部分不同的集群中運行。
為此,盡管您需要使用特定的主uri運行spark提交。 另外,您需要通過spark.cassandra.connection.host
指定一個Cassandra節點
dse spark-submit --master spark://sparkmasterip:7077 --conf spark.cassandra.connection.host aCassandraNode --flags jar
將罐子保持在最后很重要。 jar后面的所有參數都被解釋為應用程序的參數,而不是spark-submit參數。
集群模式意味着您的本地計算機將jar和環境字符串發送到Spark Master。 然后,Spark Master選擇一個工作程序來實際運行驅動程序,並且該工作程序將驅動程序作為單獨的JVM啟動。 這是使用--deploy-mode cluster
標志觸發的。 除了指定Master和Cassandra連接主機。
dse spark-submit --master spark://sparkmasterip:7077 --deploy-mode cluster --conf spark.cassandra.connection.host aCassandraNode --flags jar
Local
模式下運行Spark驅動程序 最后,存在Spark的Local
模式,該模式在單個JVM中啟動整個Spark Framework。 這主要用於測試。 通過傳遞`--master local``激活本地模式
有關更多信息,請查看有關提交申請的Spark文檔
http://spark.apache.org/docs/latest/submitting-applications.html
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.