簡體   English   中英

如何在Windows機器上為Spark應用程序設置集群環境?

[英]How to set up cluster environment for Spark applications on Windows machines?

我一直在使用spark獨立非集群模式在pyspark中開發。 這些天,我想探討更多關於spark的集群模式。 我在互聯網上搜索,發現我可能需要一個集群管理器來使用Apache Mesos或Spark Standalone在不同的機器上運行集群。 但是,我無法輕易找到圖片的細節。

我應該如何從系統設計的角度進行設置,以便在多個Windows機器(或多個Windows vms)中運行spark集群。

您可能希望探索(從最簡單的)Spark Standalone,通過Hadoop YARN到Apache Mesos或DC / OS。 請參閱群集模式概述

我建議首先使用Spark Standalone(作為提交Spark應用程序的最簡單選項)。 Spark Standalone包含在任何Spark安裝中,並且可以在Windows上正常運行。 問題是沒有腳本可以啟動和停止Windows操作系統的獨立Master和Workers(也稱為奴隸)。 你只需要自己“編碼”它們。

使用以下命令在Windows上啟動獨立主服務器:

// terminal 1
bin\spark-class org.apache.spark.deploy.master.Master

請注意,在啟動獨立主服務器后,您沒有輸入,但不要擔心,並轉到http:// localhost:8080 /以查看Spark Standalone群集的Web UI。

在單獨的終端中啟動獨立Worker的實例。

// terminal 2
bin\spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

使用單工作Spark Standalone集群,您應該能夠按如下方式提交Spark應用程序:

spark-submit --master spark://localhost:7077 ...

Spark的官方文檔中閱讀Spark Standalone Mode


正如我剛剛發現Mesos不是一個選項,因為它的系統要求

Mesos運行在Linux(64位)和Mac OS X(64位)上。

但是,您可以使用VirtualBox或類似工具使用虛擬機運行任何群集。 至少DC / OS有dcos-vagrant ,它應該很容易:

dcos-vagrant在本地計算機上快速配置DC / OS群集,以進行開發,測試或演示。

部署DC / OS Vagrant涉及使用dcos-vagrant-box基本映像創建VirtualBox VM的本地群集,然后安裝DC / OS。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM