繁体   English   中英

apache hadoop,hbase和nutch组件分布,用于4个服务器集群

[英]apache hadoop, hbase and nutch components distribution for 4 servers cluster

我有4个系统。 我想抓取一些数据。 首先,我需要配置集群。 我对组件的放置感​​到困惑。

  1. 我应该将所有组件(hadoop,hive,hbase,nutch)放置在一台计算机中,并将其他计算机添加为hadoop中的节点吗?
  2. 我是否应该将hbase放在一台机器上,在另一台机器上放个小钩,然后在第三台上安装hadoop,然后将机器添加为hadoop的从机?
  3. HBase应该处于伪分布式模式还是完全分布式。
  4. 如果我以完全分布式模式运行它,我应该在hbase中添加多少个从属。

什么应该是最好的方法。 请逐步指导(适用于hbase和hadoop)

假设您有4个节点n1,n2,n3和n4。 您可以在分布式模式下安装hadoop和hbase。 如果您使用的是Hadoop 1.x-

n1 - hadoop master[Namenode and Jobtracker]
n2, n3 and n3 - hadoop slaves [datanodes and tasktrackers]

对于HBase,您可以选择n1或任何其他节点作为主节点,因为主节点通常不占用大量CPU /内存,因此可以在测试设置上将所有主节点部署在单个节点上,但是在生产环境中,最好将每个主节点部署在单独的节点。

Lets say n2 - HBase Master, remaining 3 nodes can act as regionservers.

Hive和Nutch可以驻留在任何节点上。 希望这可以帮助; 对于测试设置,这应该很好。


更新-

对于Hadoop 2.x,由于您的群集很小,因此可以跳过Namenode HA部署。 Namenode HA将需要两个节点,每个节点分别用于活动节点和备用节点。

一个Zookeeper仲裁,它再次需要奇数个节点,因此最少需要三个节点。

日志仲裁再次需要最少3个节点。

但是对于群集来说,小的HA可能不是主要问题。 这样你就可以保持

n1-名称节点

n2-ResouceManager或Yarn

其余节点可以充当数据节点,请尽量不要在yarn节点上部署任何其他对象。

HBase,Hive和Nutch的其余部署将保持不变。

在我看来,您应该以完全分布式的模式安装Hadoop,因此作业可以并行方式运行并且速度更快,因为MapReduce任务将分布在4台计算机上。 当然,Hadoop的主节点应在一台机器上运行。

如果需要处理大量数据,则最好将HBase安装在一台计算机中,将Hadoop安装在3中。

您可以使用带有非常友好的GUI(例如Cloudera Manager和Hortonworks)的工具/平台使上述所有操作变得非常容易。 它们将帮助您更好地控制和维护群集,但是它们还为群集中发生的每个错误提供运行状况监视,群集分析以及电子邮件通知。

Cloudera Manager http://www.cloudera.com/content/cloudera/en/products-and-services/cloudera-enterprise/cloudera-manager.html

Hortonworks http://hortonworks.com/

在这两个链接中,您可以找到有关如何构建集群的更多指导。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM