apache hadoop，hbase和nutch组件分布，用于4个服务器集群

Question

我有4个系统。 我想抓取一些数据。 首先，我需要配置集群。 我对组件的放置感到困惑。

什么应该是最好的方法。 请逐步指导（适用于hbase和hadoop）

Answer 1

假设您有4个节点n1，n2，n3和n4。 您可以在分布式模式下安装hadoop和hbase。 如果您使用的是Hadoop 1.x-

n1 - hadoop master[Namenode and Jobtracker]
n2, n3 and n3 - hadoop slaves [datanodes and tasktrackers]

对于HBase，您可以选择n1或任何其他节点作为主节点，因为主节点通常不占用大量CPU /内存，因此可以在测试设置上将所有主节点部署在单个节点上，但是在生产环境中，最好将每个主节点部署在单独的节点。

Lets say n2 - HBase Master, remaining 3 nodes can act as regionservers.

Hive和Nutch可以驻留在任何节点上。 希望这可以帮助; 对于测试设置，这应该很好。

更新-

对于Hadoop 2.x，由于您的群集很小，因此可以跳过Namenode HA部署。 Namenode HA将需要两个节点，每个节点分别用于活动节点和备用节点。

一个Zookeeper仲裁，它再次需要奇数个节点，因此最少需要三个节点。

日志仲裁再次需要最少3个节点。

但是对于群集来说，小的HA可能不是主要问题。 这样你就可以保持

n1-名称节点

n2-ResouceManager或Yarn

其余节点可以充当数据节点，请尽量不要在yarn节点上部署任何其他对象。

HBase，Hive和Nutch的其余部署将保持不变。

Answer 2

在我看来，您应该以完全分布式的模式安装Hadoop，因此作业可以并行方式运行并且速度更快，因为MapReduce任务将分布在4台计算机上。 当然，Hadoop的主节点应在一台机器上运行。

如果需要处理大量数据，则最好将HBase安装在一台计算机中，将Hadoop安装在3中。

您可以使用带有非常友好的GUI（例如Cloudera Manager和Hortonworks）的工具/平台使上述所有操作变得非常容易。 它们将帮助您更好地控制和维护群集，但是它们还为群集中发生的每个错误提供运行状况监视，群集分析以及电子邮件通知。

在这两个链接中，您可以找到有关如何构建集群的更多指导。