繁体 English 中英

如何使用多节点Cassandra集群设置Spark？

[英]How to setup Spark with a multi node Cassandra cluster?

原文 2017-08-10 14:38:55 9 1 apache-spark/ cassandra/ spark-cassandra-connector

首先，我没有使用DSE Cassandra。 我自己构建此文件，并使用Microsoft Azure托管服务器。

我有一个2节点的Cassandra集群，我设法在单个节点上设置了Spark，但是找不到关于在多节点集群上进行设置的任何在线资源。

这不是如何设置Spark Cassandra多节点集群的重复项吗？

要在单个节点上进行设置，我遵循了本教程“ 使用Cassandra Connector安装Spark ”。

1 个解决方案

您在这里有两个高级任务：

设置Spark（单节点或集群）;
设置Cassandra（单节点或集群）；

这些任务是不同的，并且不相关（如果我们不谈论数据局部性）。 如何在Cluster中设置Spark，您可以在此处找到体系结构概述。 通常，有两种类型（独立类型，您可以在主机上直接设置Spark或使用任务计划程序（Yarn，Mesos）），您应该根据自己的需求进行选择。 当您自己构建所有组件时，我想您将使用独立安装。 一个节点之间的区别是网络通信。 默认情况下，Spark在localhost上运行，更常见的是它使用FQDNS名称，因此您应该在/ etc / hosts和hostname -f中配置它，或尝试IP。 看一下此页面，其中包含用于节点通信的所有必需端口。 所有端口应处于开放状态，并且在节点之间可用。 注意默认情况下，Spark使用带有随机端口的TorrentBroadcastFactory 。

对于卡桑德拉看到这个文档： 1 ， 2 ，辅导3等，您将需要4可能。 您还可以使用docker 容器在Mesos中使用Cassandra。

ps如果是数据局部性，则应提出自己的建议，因为Mesos或Yarn都不会处理更靠近Cassandra分区的分区数据的运行Spark作业。

如何在独立的多节点多 docker 设置上运行 spark 集群

[英]How to run spark cluster on a standalone multi-node multi-docker setup

有关如何设置mesos，cassandra和spark的物理（测试）集群的任何资源

[英]Any resources on how to setup a physical (test) cluster of mesos, cassandra and spark

如何设置cassandra和spark

[英]How to setup cassandra and spark

用于Spark集群和Cassandra的JanusGraph的设置和配置

[英]Setup and configuration of JanusGraph for a Spark cluster and Cassandra

为Spark集群和Cassandra设置和配置Titan

[英]Setup and configuration of Titan for a Spark cluster and Cassandra

如何在多节点Hadoop集群上设置Spark？

[英]How to set up Spark on multi-node Hadoop cluster?

在具有pyspark的多节点群集上使用Spark

[英]Utilizing Spark on a multi-node cluster with pyspark

如何在Spark Cassandra连接器中设置列顺序

[英]How to setup a column order in spark cassandra connector

多节点 cassandra 集群 - load_balancing_policy

[英]multi node cassandra cluster - load_balancing_policy

Spark 与 Cassandra python 设置

[英]Spark with Cassandra python setup

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在独立的多节点多 docker 设置上运行 spark 集群有关如何设置mesos，cassandra和spark的物理（测试）集群的任何资源如何设置cassandra和spark 用于Spark集群和Cassandra的JanusGraph的设置和配置为Spark集群和Cassandra设置和配置Titan 如何在多节点Hadoop集群上设置Spark？在具有pyspark的多节点群集上使用Spark 如何在Spark Cassandra连接器中设置列顺序多节点 cassandra 集群 - load_balancing_policy Spark 与 Cassandra python 设置

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM