簡體   English   中英

在現有的Hadoop集群上安裝Spark

[英]Install Spark on an existing Hadoop cluster

我不是系統管理員,但是我可能需要執行一些管理任務,因此需要一些幫助。

我們有一個(遠程)Hadoop集群,人們通常在集群上運行map-reduce作業。

我打算在群集上安裝Apache Spark,以便可以利用群集中的所有計算機。 這應該是可能的,我已經閱讀了http://spark.apache.org/docs/latest/spark-standalone.html。 “您可以通過在同一台機器上作為單獨的服務啟動Spark來與現有的Hadoop集群一起運行。 ......”

如果您之前已完成此操作,請給我詳細的步驟,以便可以創建Spark集群。

如果您的集群上已經安裝了Hadoop,並且想在YARN上運行spark,那么非常簡單:

步驟1:查找YARN Master節點(即運行資源管理器的節點)。 以下步驟僅在主節點上執行。

步驟2: 下載 Spark tgz軟件包並將其解壓縮到某個地方。

步驟3:.bashrc定義這些環境變量,例如:

# Spark variables
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=<extracted_spark_package>
export PATH=$PATH:$SPARK_HOME/bin

步驟4:使用--master選項對yarn-clientyarn-master運行您的spark作業:

spark-submit \
--master yarn-client \
--class org.apache.spark.examples.JavaSparkPi \
$SPARK_HOME/lib/spark-examples-1.5.1-hadoop2.6.0.jar \
100

這個特定示例使用Spark安裝隨附的預編譯示例作業。

您可以閱讀我寫的這篇博客文章,以獲得有關在集群上安裝Hadoop和Spark的更多詳細信息。

您可以閱讀下面的文章,了解如何在Java中編譯和運行自己的Spark作業。 如果要用Python或Scala編寫作業代碼,可以方便地使用IPython或Zeppelin之類的筆記本。 在此處閱讀有關如何將其與Hadoop-Spark集群一起使用的更多信息。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM