如何使用Ruby CLI客戶端基於Amazon Elastic MapReduce上的JSON JobFlow描述啟動JobFlow

Question

我已經為hadoop編寫了一個mapreduce應用程序，並在一台機器上的命令行上對其進行了測試。 我的應用程序使用兩個步驟Map1-> Reduce1-> Map2-> Reduce2要在AWS Mapreduce上運行此作業，我需要遵循以下鏈接http://aws.amazon.com/articles/2294 。 但是我不清楚如何使用亞馬遜提供的Ruby CLI客戶端來完成所描述的所有工作。 請指導。

謝謝。

Answer 1

首先，創建默認的流作業流（運行wordcount示例）。 此時，您可以使用作業流程ID添加其他步驟。 在我的示例中，第一個mapreduce作業將其結果存儲在S3存儲桶中。 然后，該結果將成為第二項工作的輸入。 如果您進入AWS控制台，您將在“ 步驟”選項卡下看到它們。

您可以通過這種方式保持鏈接作業，因為--alive標志可確保在手動終止群集之前，群集不會關閉。 請記住，當最后一步完成時（工作流程將返回到WAITING狀態），否則，您將需要支付空閑時間。

$ elastic-mapreduce --create --alive --stream --num-instances=1 --master-instance-type=m1.small

Created job flow j-NXXXJARJARSXXX
$ elastic-mapreduce -j j-NXXXJARJARSXXX --stream \
 --input   s3n://mybucket.data/2011/01/01/* \
 --output  s3n://mybucket.joblog/step1done-2011-01-01 \
 --mapper  s3n://mybucket.code/map.rb \
 --reducer s3n://mybucket.code/reduce.rb

Added jobflow steps
$ elastic-mapreduce -j j-NXXXJAJARSXXX --stream \
 --input   s3n://mybucket.joblog/step1done-2011-01-01/part-*  \
 --output  s3n://mybucket.joblog/job-results \
 --mapper  s3n://mybucket.code/map.rb \
 --reducer s3n://mybucket.code/reduce.rb

Added jobflow steps

如何使用Ruby CLI客戶端基於Amazon Elastic MapReduce上的JSON JobFlow描述啟動JobFlow

問題描述

1 個解決方案

解決方案1
0 已采納 2011-02-26 00:04:13

如何使用Ruby CLI客戶端基於Amazon Elastic MapReduce上的JSON JobFlow描述啟動JobFlow

問題描述

1 個解決方案

解決方案1 0 已采納 2011-02-26 00:04:13

解決方案1
0 已采納 2011-02-26 00:04:13