簡體   English   中英

如何使用多節點Cassandra集群設置Spark?

[英]How to setup Spark with a multi node Cassandra cluster?

首先,我沒有使用DSE Cassandra。 我自己構建此文件,並使用Microsoft Azure托管服務器。

我有一個2節點的Cassandra集群,我設法在單個節點上設置了Spark,但是找不到關於在多節點集群上進行設置的任何在線資源。

這不是如何設置Spark Cassandra多節點集群的重復項嗎?

要在單個節點上進行設置,我遵循了本教程“ 使用Cassandra Connector安裝Spark ”。

您在這里有兩個高級任務:

  1. 設置Spark(單節點或集群);
  2. 設置Cassandra(單節點或集群);

這些任務是不同的,並且不相關(如果我們不談論數據局部性)。 如何在Cluster中設置Spark,您可以在此處找到體系結構概述 通常,有兩種類型(獨立類型,您可以在主機上直接設置Spark或使用任務計划程序(Yarn,Mesos)),您應該根據自己的需求進行選擇。 當您自己構建所有組件時,我想您將使用獨立安裝 一個節點之間的區別是網絡通信。 默認情況下,Spark在localhost上運行,更常見的是它使用FQDNS名稱,因此您應該在/ etc / hosts和hostname -f中配置它,或嘗試IP。 看一下此頁面 ,其中包含用於節點通信的所有必需端口。 所有端口應處於開放狀態,並且在節點之間可用。 注意默認情況下,Spark使用帶有隨機端口的TorrentBroadcastFactory

對於卡桑德拉看到這個文檔: 12 ,輔導3等,您將需要4可能。 您還可以使用docker 容器在Mesos中使用Cassandra。

ps如果是數據局部性,則應提出自己的建議,因為Mesos或Yarn都不會處理更靠近Cassandra分區的分區數據的運行Spark作業。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM