[英]MapReduce in the cloud
除了Amazon MapReduce,我還必須處理其他哪些選項?
微軟還具有在Windows Azure上運行的Hadoop / MapReduce,但其CTP受限制,但是您可以在下面的鏈接中提供信息和CTP訪問請求: https ://www.hadooponazure.com/ Apache Hadoop-的開發人員預覽版-可通過邀請獲得基於Windows Azure的服務。
除此之外,您還可以嘗試使用Google BigQuery,在該方法中,您必須先將數據移至Google專有存儲,然后在其上運行BigQuery。 請記住,BigQuery基於Dremel,它與MapReduce相似,但是由於基於列的搜索處理而速度更快。
還有一個選擇是使用Mortar Data,因為他們已經使用python和pig來智能地輕松編寫作業並可視化結果。 我發現它非常有趣,請看一下: http : //mortardata.com/#!/how_it_works
全面發行
HDFS替代品
Hadoop MapReduce替代品
請參閱: http : //gigaom.com/cloud/as-big-data-takes-off-the-hadoop-wars-begin/
如果要使用機器集群實時處理大量數據(Twitter提要,點擊網站流)等,請查看最近從Twitter開源的“風暴”
標准的Apache Hadoop非常適合批量處理PB級數據,而這不會造成延遲。
如上所述,來自DataStax的輕快功能非常獨特,因為您可以對實時數據使用MapReduce並行處理。
諸如Hadoop Online之類的其他工作也允許使用管道進行處理。
Google BigQuery顯然是另一種選擇,您可以使用csv(分隔記錄),無需進行任何設置就可以切片和切塊。 它使用起來非常簡單,但是它是一項高級服務,您無需付費。 字節數(不過前100GB /月是免費的)。
如果您想留在雲中,還可以啟動EC2實例以創建永久的Hadoop集群。 Cloudera有很多資源可以在這里設置這樣的集群。
但是,此選項比Amazon Elastic Mapreduce的成本效益要低,除非您一天中有很多工作要運行,從而使集群相當繁忙。
另一個選擇是構建自己的集群。 Hadoop的一項不錯的功能是,您可以將異構硬件整合到具有出色計算能力的集群中。 可以放在服務器機房機架中的那種。 考慮到已經部署了較舊的硬件,要使這樣的群集運行,唯一的成本就是新的驅動器,也許還有足夠的內存條可以最大化這些存儲盒的容量。 那么,這種方法的成本效益要比亞馬遜好得多。 唯一的警告是您是否具有必要的帶寬來定期將所有數據拉入群集的HDFS。
Google App Engine也會執行MapReduce(至少現在是Map部分)。 http://code.google.com/p/appengine-mapreduce/
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.