[英]apache hadoop, hbase and nutch components distribution for 4 servers cluster
我有4个系统。 我想抓取一些数据。 首先,我需要配置集群。 我对组件的放置感到困惑。
什么应该是最好的方法。 请逐步指导(适用于hbase和hadoop)
假设您有4个节点n1,n2,n3和n4。 您可以在分布式模式下安装hadoop和hbase。 如果您使用的是Hadoop 1.x-
n1 - hadoop master[Namenode and Jobtracker]
n2, n3 and n3 - hadoop slaves [datanodes and tasktrackers]
对于HBase,您可以选择n1或任何其他节点作为主节点,因为主节点通常不占用大量CPU /内存,因此可以在测试设置上将所有主节点部署在单个节点上,但是在生产环境中,最好将每个主节点部署在单独的节点。
Lets say n2 - HBase Master, remaining 3 nodes can act as regionservers.
Hive和Nutch可以驻留在任何节点上。 希望这可以帮助; 对于测试设置,这应该很好。
更新-
对于Hadoop 2.x,由于您的群集很小,因此可以跳过Namenode HA部署。 Namenode HA将需要两个节点,每个节点分别用于活动节点和备用节点。
一个Zookeeper仲裁,它再次需要奇数个节点,因此最少需要三个节点。
日志仲裁再次需要最少3个节点。
但是对于群集来说,小的HA可能不是主要问题。 这样你就可以保持
n1-名称节点
n2-ResouceManager或Yarn
其余节点可以充当数据节点,请尽量不要在yarn节点上部署任何其他对象。
HBase,Hive和Nutch的其余部署将保持不变。
在我看来,您应该以完全分布式的模式安装Hadoop,因此作业可以并行方式运行并且速度更快,因为MapReduce任务将分布在4台计算机上。 当然,Hadoop的主节点应在一台机器上运行。
如果需要处理大量数据,则最好将HBase安装在一台计算机中,将Hadoop安装在3中。
您可以使用带有非常友好的GUI(例如Cloudera Manager和Hortonworks)的工具/平台使上述所有操作变得非常容易。 它们将帮助您更好地控制和维护群集,但是它们还为群集中发生的每个错误提供运行状况监视,群集分析以及电子邮件通知。
Cloudera Manager http://www.cloudera.com/content/cloudera/en/products-and-services/cloudera-enterprise/cloudera-manager.html
Hortonworks http://hortonworks.com/
在这两个链接中,您可以找到有关如何构建集群的更多指导。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.