簡體   English   中英

雲中的MapReduce

[英]MapReduce in the cloud

除了Amazon MapReduce,我還必須處理其他哪些選項?

微軟還具有在Windows Azure上運行的Hadoop / MapReduce,但其CTP受限制,但是您可以在下面的鏈接中提供信息和CTP訪問請求: https ://www.hadooponazure.com/ Apache Hadoop-的開發人員預覽版-可通過邀請獲得基於Windows Azure的服務。

除此之外,您還可以嘗試使用Google BigQuery,在該方法中,您必須先將數據移至Google專有存儲,然后在其上運行BigQuery。 請記住,BigQuery基於Dremel,它與MapReduce相似,但是由於基於列的搜索處理而速度更快。

還有一個選擇是使用Mortar Data,因為他們已經使用python和pig來智能地輕松編寫作業並可視化結果。 我發現它非常有趣,請看一下: http : //mortardata.com/#!/how_it_works

DataStax Brisk很好。

全面發行

  1. 阿帕奇Hadoop
  2. Cloudera的發行版,包括Apache Hadoop(正式名稱)
  3. IBM發行的Apache Hadoop
  4. DataStax輕快
  5. 亞馬遜彈性MapReduce

HDFS替代品

  1. 映射器
  2. Appistry CloudIQ存儲Hadoop版
  3. IBM全球並行文件系統(GPFS)
  4. 雲存儲

Hadoop MapReduce替代品

  1. 無處不在的DataRush
  2. 級聯
  3. Hive(Apache子項目,包含在Cloudera的發行版中)
  4. Pig(Yahoo開發的語言,包括在Cloudera的發行版中)

請參閱: http : //gigaom.com/cloud/as-big-data-takes-off-the-hadoop-wars-begin/

如果要使用機器集群實時處理大量數據(Twitter提要,點擊網站流)等,請查看最近從Twitter開源的“風暴”

標准的Apache Hadoop非常適合批量處理PB級數據,而這不會造成延遲。

如上所述,來自DataStax的輕快功能非常獨特,因為您可以對實時數據使用MapReduce並行處理。

諸如Hadoop Online之類的其他工作也允許使用管道進行處理。

Google BigQuery顯然是另一種選擇,您可以使用csv(分隔記錄),無需進行任何設置就可以切片和切塊。 它使用起來非常簡單,但是它是一項高級服務,您無需付費。 字節數(不過前100GB /月是免費的)。

如果您想留在雲中,還可以啟動EC2實例以創建永久的Hadoop集群。 Cloudera有很多資源可以在這里設置這樣的集群。

但是,此選項比Amazon Elastic Mapreduce的成本效益要低,除非您一天中有很多工作要運行,從而使集群相當繁忙。

另一個選擇是構建自己的集群。 Hadoop的一項不錯的功能是,您可以將異構硬件整合到具有出色計算能力的集群中。 可以放在服務器機房機架中的那種。 考慮到已經部署了較舊的硬件,要使這樣的群集運行,唯一的成本就是新的驅動器,也許還有足夠的內存條可以最大化這些存儲盒的容量。 那么,這種方法的成本效益要比亞馬遜好得多。 唯一的警告是您是否具有必要的帶寬來定期將所有數據拉入群集的HDFS。

Google App Engine也會執行MapReduce(至少現在是Map部分)。 http://code.google.com/p/appengine-mapreduce/

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM