簡體 English 中英

雲中的MapReduce

[英]MapReduce in the cloud

原文 2010-06-05 19:14:11 3 5 database/ mapreduce/ google-bigquery/ large-data

除了Amazon MapReduce，我還必須處理其他哪些選項？

5 個解決方案

微軟還具有在Windows Azure上運行的Hadoop / MapReduce，但其CTP受限制，但是您可以在下面的鏈接中提供信息和CTP訪問請求： https ://www.hadooponazure.com/ Apache Hadoop-的開發人員預覽版-可通過邀請獲得基於Windows Azure的服務。

除此之外，您還可以嘗試使用Google BigQuery，在該方法中，您必須先將數據移至Google專有存儲，然后在其上運行BigQuery。 請記住，BigQuery基於Dremel，它與MapReduce相似，但是由於基於列的搜索處理而速度更快。

還有一個選擇是使用Mortar Data，因為他們已經使用python和pig來智能地輕松編寫作業並可視化結果。 我發現它非常有趣，請看一下： http : //mortardata.com/#!/how_it_works

DataStax Brisk很好。

全面發行

阿帕奇Hadoop
Cloudera的發行版，包括Apache Hadoop（正式名稱）
IBM發行的Apache Hadoop
DataStax輕快
亞馬遜彈性MapReduce

HDFS替代品

映射器
Appistry CloudIQ存儲Hadoop版
IBM全球並行文件系統（GPFS）
雲存儲

Hadoop MapReduce替代品

無處不在的DataRush
級聯
Hive（Apache子項目，包含在Cloudera的發行版中）
Pig（Yahoo開發的語言，包括在Cloudera的發行版中）

請參閱： http : //gigaom.com/cloud/as-big-data-takes-off-the-hadoop-wars-begin/

如果要使用機器集群實時處理大量數據（Twitter提要，點擊網站流）等，請查看最近從Twitter開源的“風暴”

標准的Apache Hadoop非常適合批量處理PB級數據，而這不會造成延遲。

如上所述，來自DataStax的輕快功能非常獨特，因為您可以對實時數據使用MapReduce並行處理。

諸如Hadoop Online之類的其他工作也允許使用管道進行處理。

Google BigQuery顯然是另一種選擇，您可以使用csv（分隔記錄），無需進行任何設置就可以切片和切塊。 它使用起來非常簡單，但是它是一項高級服務，您無需付費。 字節數（不過前100GB /月是免費的）。

如果您想留在雲中，還可以啟動EC2實例以創建永久的Hadoop集群。 Cloudera有很多資源可以在這里設置這樣的集群。

但是，此選項比Amazon Elastic Mapreduce的成本效益要低，除非您一天中有很多工作要運行，從而使集群相當繁忙。

另一個選擇是構建自己的集群。 Hadoop的一項不錯的功能是，您可以將異構硬件整合到具有出色計算能力的集群中。 可以放在服務器機房機架中的那種。 考慮到已經部署了較舊的硬件，要使這樣的群集運行，唯一的成本就是新的驅動器，也許還有足夠的內存條可以最大化這些存儲盒的容量。 那么，這種方法的成本效益要比亞馬遜好得多。 唯一的警告是您是否具有必要的帶寬來定期將所有數據拉入群集的HDFS。