![](/img/trans.png)
[英]Can I change GCP Dataproc cluster from Standard (1 master, N workers) to High Availability?
[英]Workflow scheduling on GCP Dataproc cluster
我有一些復雜的 Oozie 工作流可以從本地 Hadoop 遷移到 GCP Dataproc。 工作流包括 shell 腳本、Python 腳本、Spark-Scala 作業、Sqoop 作業等。
我遇到了一些包含我的工作流程調度需求的潛在解決方案:
請讓我知道哪個選項在性能、成本和遷移復雜性方面最有效。
所有 3 個都是合理的選擇(盡管 #2 Scheduler+Dataproc 是最笨重的)。 需要考慮的幾個問題:您的工作流多久運行一次,您對未使用的 VM 的容忍度如何,您的 Oozie 工作流有多復雜,以及您是否願意在遷移上投入時間?
Dataproc 的工作流支持分支/加入,但缺乏其他 Oozie 功能,例如如何處理作業失敗、決策節點等。如果您使用其中任何一個,我什至不會考慮直接遷移到工作流模板並選擇 #3或下面的混合遷移。
一個很好的起點是混合遷移(假設您的集群很少使用)。 保留您的 Oozie 工作流並讓 Composer + 工作流模板使用 Oozie 創建一個集群,使用 init 操作來暫存您的 Oozie XML 文件 + 作業 jars/artifacts,從工作流中添加一個pig sh
作業以通過 CLI 觸發 Oozie。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.