簡體   English   中英

如何使用Ruby CLI客戶端基於Amazon Elastic MapReduce上的JSON JobFlow描述啟動JobFlow

[英]How to use Ruby CLI client to launch a JobFlow based on a JSON JobFlow description on Amazon Elastic MapReduce

我已經為hadoop編寫了一個mapreduce應用程序,並在一台機器上的命令行上對其進行了測試。 我的應用程序使用兩個步驟Map1-> Reduce1-> Map2-> Reduce2要在AWS Mapreduce上運行此作業,我需要遵循以下鏈接http://aws.amazon.com/articles/2294 但是我不清楚如何使用亞馬遜提供的Ruby CLI客戶端來完成所描述的所有工作。 請指導。

謝謝。

首先,創建默認的流作業流(運行wordcount示例)。 此時,您可以使用作業流程ID添加其他步驟。 在我的示例中,第一個mapreduce作業將其結果存儲在S3存儲桶中。 然后,該結果將成為第二項工作的輸入。 如果您進入AWS控制台,您將在“ 步驟”選項卡下看到它們。

您可以通過這種方式保持鏈接作業,因為--alive標志可確保在手動終止群集之前,群集不會關閉。 請記住,當最后一步完成時(工作流程將返回到WAITING狀態),否則,您將需要支付空閑時間。

$ elastic-mapreduce --create --alive --stream --num-instances=1 --master-instance-type=m1.small

Created job flow j-NXXXJARJARSXXX
$ elastic-mapreduce -j j-NXXXJARJARSXXX --stream \
 --input   s3n://mybucket.data/2011/01/01/* \
 --output  s3n://mybucket.joblog/step1done-2011-01-01 \
 --mapper  s3n://mybucket.code/map.rb \
 --reducer s3n://mybucket.code/reduce.rb

Added jobflow steps
$ elastic-mapreduce -j j-NXXXJAJARSXXX --stream \
 --input   s3n://mybucket.joblog/step1done-2011-01-01/part-*  \
 --output  s3n://mybucket.joblog/job-results \
 --mapper  s3n://mybucket.code/map.rb \
 --reducer s3n://mybucket.code/reduce.rb

Added jobflow steps

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM