如何從本地提交Spark Job並連接到Cassandra集群

Question

任何人都可以讓我知道如何從本地提交spark Job並連接到Cassandra集群。

當前，我通過膩子登錄到Cassandra節點並提交以下dse-spark-submit Job命令后，將提交Spark作業。

命令： dse spark-submit --class ***** --total-executor-cores 6 --executor-memory 2G **/**/**.jar --config-file build/job.conf --args

使用上面的命令，我的spark Job能夠連接到集群及其執行，但是有時會遇到問題。

因此，我想從本地計算機提交Spark作業。 誰能指導我如何做到這一點。

Answer 1

“在本地工作”可能意味着幾件事情

這是我的一些解釋

在本地計算機上運行Spark驅動程序，但訪問遠程群集的資源

我出於某些原因不建議這樣做，最大的原因是您的所有作業管理仍將在遠程計算機和集群中的執行者之間進行。 這相當於讓Hadoop Job Tracker在與Hadoop分發版其余部分不同的集群中運行。

為此，盡管您需要使用特定的主uri運行spark提交。 另外，您需要通過spark.cassandra.connection.host指定一個Cassandra節點

dse spark-submit --master spark://sparkmasterip:7077 --conf spark.cassandra.connection.host aCassandraNode --flags jar

將罐子保持在最后很重要。 jar后面的所有參數都被解釋為應用程序的參數，而不是spark-submit參數。

在本地計算機上運行Spark Submit，但在群集中運行驅動程序（集群模式）

集群模式意味着您的本地計算機將jar和環境字符串發送到Spark Master。 然后，Spark Master選擇一個工作程序來實際運行驅動程序，並且該工作程序將驅動程序作為單獨的JVM啟動。 這是使用--deploy-mode cluster標志觸發的。 除了指定Master和Cassandra連接主機。

dse spark-submit --master spark://sparkmasterip:7077 --deploy-mode cluster --conf spark.cassandra.connection.host aCassandraNode --flags jar

在`Local`模式下運行Spark驅動程序

最后，存在Spark的Local模式，該模式在單個JVM中啟動整個Spark Framework。 這主要用於測試。 通過傳遞`--master local``激活本地模式

有關更多信息，請查看有關提交申請的Spark文檔

http://spark.apache.org/docs/latest/submitting-applications.html

如何從本地提交Spark Job並連接到Cassandra集群

問題描述

1 個解決方案

解決方案1
1 2016-12-23 05:37:43

在本地計算機上運行Spark驅動程序，但訪問遠程群集的資源

在本地計算機上運行Spark Submit，但在群集中運行驅動程序（集群模式）

在`Local`模式下運行Spark驅動程序

如何從本地提交Spark Job並連接到Cassandra集群

問題描述

1 個解決方案

解決方案1 1 2016-12-23 05:37:43

在本地計算機上運行Spark驅動程序，但訪問遠程群集的資源

在本地計算機上運行Spark Submit，但在群集中運行驅動程序（集群模式）

在Local模式下運行Spark驅動程序

解決方案1
1 2016-12-23 05:37:43

在`Local`模式下運行Spark驅動程序