簡體   English   中英

Oozie用於多個mapreduce工作

[英]Oozie for multiple mapreduce jobs

我有一系列需要運行的mapreduce作業。 我想知道使用Oozie而不是擁有將運行該序列的“一個大驅動程序”是否有任何優勢?

我知道Oozie可用於運行不同類型的多個動作,例如Pig腳本,Shell腳本,Mr job,但是我特別感興趣的是我應該拆分兩個作業並使用Oozie運行它們,還是只用一個jar來做那?

Oozie是一個調度程序-原始的,文獻記錄很少,但是是一個調度程序。

  • 如果您本身不需要調度,或者邊緣節點上的CRON已足夠
  • 如果您想自己處理工作流邏輯(例如,條件分支,等待散列者的並行執行,使用臨時參數調用通用子工作流,有關錯誤的電子郵件警報,<在此處插入您的寵物功能>)或不需要任何花哨的邏輯
  • 如果您自己處理執行日志和狀態歷史記錄,或者不在乎歷史記錄

...好吧,不要使用調度程序。

PS:您還有Luigi (Spotify)和Azkaban (LinkedIn)作為替代Hadoop調度程序。

[編輯]要考慮的其他要點:如果您的“驅動程序”由於任何原因崩潰,則您可能沒有機會發送警報; 但是如果從Oozie運行,則最終將檢測到崩潰(在極端情況下,可能需要多達30分鍾的時間,例如,由於YARN RM故障轉移而導致AM作業自毀)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM