簡體   English   中英

在Amazon ec2:多節點集群上運行hadoop作業

[英]Running hadoop jobs on Amazon ec2: multi node cluster

我必須在Amazon EC2集群上運行hadoop mapreduce作業。

我嘗試使用現有的AMI進行設置。 但是在啟動master和客戶端之后“jps”沒有列出任何節點。

即使在使用公共hadoop AMI后,我們還必須為主人和奴隸進行hadoop設置嗎? 主人怎么知道奴隸的IP地址?

誰能請我指點一些好的文件。 我現在正在敲打這個超過12小時的頭腦。

有人可以幫忙嗎?

謝謝。

馬修建議的另一種選擇是使用Whirr。

Whirr使得在亞馬遜上部署Hadoop集群變得非常容易,而且您不必為mapreduce實例付費。 您可以控制群集的版本。

這是項目主頁: http//whirr.apache.org/

以下是安裝Hadoop的快速入門指南。 運行Hadoop集群需要5分鍾。 http://whirr.apache.org/docs/0.6.0/quick-start-guide.html

我會改用Amazon的Elastic MapReduce框架。 您可以動態地上下移動機器和群集,您不必擔心將它們配置為相互通信。

http://aws.amazon.com/elasticmapreduce/

它被許多人使用,而且它最可靠。 它將為您節省通常用於設置和管理集群的TON工作量。 只有一件事與常規的hadoop不同 - 最好把東西放在S3而不是HDFS(因為集群是瞬態的,所以HDFS數據隨着集群而消失)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM