繁体   English   中英

如何使用多节点Cassandra集群设置Spark?

[英]How to setup Spark with a multi node Cassandra cluster?

首先,我没有使用DSE Cassandra。 我自己构建此文件,并使用Microsoft Azure托管服务器。

我有一个2节点的Cassandra集群,我设法在单个节点上设置了Spark,但是找不到关于在多节点集群上进行设置的任何在线资源。

这不是如何设置Spark Cassandra多节点集群的重复项吗?

要在单个节点上进行设置,我遵循了本教程“ 使用Cassandra Connector安装Spark ”。

您在这里有两个高级任务:

  1. 设置Spark(单节点或集群);
  2. 设置Cassandra(单节点或集群);

这些任务是不同的,并且不相关(如果我们不谈论数据局部性)。 如何在Cluster中设置Spark,您可以在此处找到体系结构概述 通常,有两种类型(独立类型,您可以在主机上直接设置Spark或使用任务计划程序(Yarn,Mesos)),您应该根据自己的需求进行选择。 当您自己构建所有组件时,我想您将使用独立安装 一个节点之间的区别是网络通信。 默认情况下,Spark在localhost上运行,更常见的是它使用FQDNS名称,因此您应该在/ etc / hosts和hostname -f中配置它,或尝试IP。 看一下此页面 ,其中包含用于节点通信的所有必需端口。 所有端口应处于开放状态,并且在节点之间可用。 注意默认情况下,Spark使用带有随机端口的TorrentBroadcastFactory

对于卡桑德拉看到这个文档: 12 ,辅导3等,您将需要4可能。 您还可以使用docker 容器在Mesos中使用Cassandra。

ps如果是数据局部性,则应提出自己的建议,因为Mesos或Yarn都不会处理更靠近Cassandra分区的分区数据的运行Spark作业。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM