在現有的Hadoop集群上安裝Spark

Question

我不是系統管理員，但是我可能需要執行一些管理任務，因此需要一些幫助。

我們有一個（遠程）Hadoop集群，人們通常在集群上運行map-reduce作業。

我打算在群集上安裝Apache Spark，以便可以利用群集中的所有計算機。 這應該是可能的，我已經閱讀了http://spark.apache.org/docs/latest/spark-standalone.html。 “您可以通過在同一台機器上作為單獨的服務啟動Spark來與現有的Hadoop集群一起運行。 ......”

如果您之前已完成此操作，請給我詳細的步驟，以便可以創建Spark集群。

Answer 1

如果您的集群上已經安裝了Hadoop，並且想在YARN上運行spark，那么非常簡單：

步驟1：查找YARN Master節點（即運行資源管理器的節點）。 以下步驟僅在主節點上執行。

步驟2： 下載 Spark tgz軟件包並將其解壓縮到某個地方。

步驟3：在.bashrc定義這些環境變量，例如：

# Spark variables
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=<extracted_spark_package>
export PATH=$PATH:$SPARK_HOME/bin

步驟4：使用--master選項對yarn-client或yarn-master運行您的spark作業：

spark-submit \
--master yarn-client \
--class org.apache.spark.examples.JavaSparkPi \
$SPARK_HOME/lib/spark-examples-1.5.1-hadoop2.6.0.jar \
100

這個特定示例使用Spark安裝隨附的預編譯示例作業。

您可以閱讀我寫的這篇博客文章，以獲得有關在集群上安裝Hadoop和Spark的更多詳細信息。

您可以閱讀下面的文章，了解如何在Java中編譯和運行自己的Spark作業。 如果要用Python或Scala編寫作業代碼，可以方便地使用IPython或Zeppelin之類的筆記本。 在此處閱讀有關如何將其與Hadoop-Spark集群一起使用的更多信息。

在現有的Hadoop集群上安裝Spark

問題描述

1 個解決方案

解決方案1
3 2016-07-08 06:19:39

在現有的Hadoop集群上安裝Spark

問題描述

1 個解決方案

解決方案1 3 2016-07-08 06:19:39

解決方案1
3 2016-07-08 06:19:39