簡體   English   中英

如何從本地提交Spark Job並連接到Cassandra集群

[英]How to submit spark Job from locally and connect to Cassandra cluster

任何人都可以讓我知道如何從本地提交spark Job並連接到Cassandra集群。

當前,我通過膩子登錄到Cassandra節點並提交以下dse-spark-submit Job命令后,將提交Spark作業。

命令: dse spark-submit --class ***** --total-executor-cores 6 --executor-memory 2G **/**/**.jar --config-file build/job.conf --args

使用上面的命令,我的spark Job能夠連接到集群及其執行,但是有時會遇到問題。

因此,我想從本地計算機提交Spark作業。 誰能指導我如何做到這一點。

“在本地工作”可能意味着幾件事情

這是我的一些解釋

在本地計算機上運行Spark驅動程序,但訪問遠程群集的資源

我出於某些原因不建議這樣做,最大的原因是您的所有作業管理仍將在遠程計算機和集群中的執行者之間進行。 這相當於讓Hadoop Job Tracker在與Hadoop分發版其余部分不同的集群中運行。

為此,盡管您需要使用特定的主uri運行spark提交。 另外,您需要通過spark.cassandra.connection.host指定一個Cassandra節點

dse spark-submit --master spark://sparkmasterip:7077 --conf spark.cassandra.connection.host aCassandraNode --flags jar

將罐子保持在最后很重要。 jar后面的所有參數都被解釋為應用程序的參數,而不是spark-submit參數。

在本地計算機上運行Spark Submit,但在群集中運行驅動程序(集群模式)

集群模式意味着您的本地計算機將jar和環境字符串發送到Spark Master。 然后,Spark Master選擇一個工作程序來實際運行驅動程序,並且該工作程序將驅動程序作為單獨的JVM啟動。 這是使用--deploy-mode cluster標志觸發的。 除了指定Master和Cassandra連接主機。

dse spark-submit --master spark://sparkmasterip:7077 --deploy-mode cluster --conf spark.cassandra.connection.host aCassandraNode --flags jar

Local模式下運行Spark驅動程序

最后,存在Spark的Local模式,該模式在單個JVM中啟動整個Spark Framework。 這主要用於測試。 通過傳遞`--master local``激活本地模式

有關更多信息,請查看有關提交申請的Spark文檔

http://spark.apache.org/docs/latest/submitting-applications.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM