簡體   English   中英

GCP Dataproc 集群上的工作流調度

[英]Workflow scheduling on GCP Dataproc cluster

我有一些復雜的 Oozie 工作流可以從本地 Hadoop 遷移到 GCP Dataproc。 工作流包括 shell 腳本、Python 腳本、Spark-Scala 作業、Sqoop 作業等。

我遇到了一些包含我的工作流程調度需求的潛在解決方案:

  1. 雲作曲家
  2. 使用 Cloud Scheduling 的 Dataproc 工作流模板
  3. 在 Dataproc 自動擴縮集群上安裝 Oozie

請讓我知道哪個選項在性能、成本和遷移復雜性方面最有效。

所有 3 個都是合理的選擇(盡管 #2 Scheduler+Dataproc 是最笨重的)。 需要考慮的幾個問題:您的工作流多久運行一次,您對未使用的 VM 的容忍度如何,您的 Oozie 工作流有多復雜,以及您是否願意在遷移上投入時間?

Dataproc 的工作流支持分支/加入,但缺乏其他 Oozie 功能,例如如何處理作業失敗、決策節點等。如果您使用其中任何一個,我什至不會考慮直接遷移到工作流模板並選擇 #3或下面的混合遷移。

一個很好的起點是混合遷移(假設您的集群很少使用)。 保留您的 Oozie 工作流並讓 Composer + 工作流模板使用 Oozie 創建一個集群,使用 init 操作來暫存您的 Oozie XML 文件 + 作業 jars/artifacts,從工作流中添加一個pig sh作業以通過 CLI 觸發 Oozie。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM