簡體   English   中英

ETL 和用戶查詢的工作流系統

[英]Workflow system for both ETL and Queries by Users

我正在尋找一個支持以下需求的工作流系統:

  1. 處理具有各種 API(基於文件、REST、控制台、數據庫等)的復雜 ETL 管道
  2. 在不同的執行環境(AWS、Azure、本地集群、本地機器......)上提供自動調度/編排
  3. 具有“反應性”工作流程的選項,即可以立即觸發和執行的工作流程,沒有不必要的延遲,以最高優先級執行,並且可以同時啟動相同的工作流程多次

尤其是第三個要求似乎很難找到。 此要求的目的是用戶應該能夠發送查詢以激活(計算上非繁重的)工作流程並立即返回結果,而不是等待幾秒鍾甚至幾分鍾,並且多個用戶可能希望使用相同的工作流程同時。 這很重要的原因是 ETL 工作流和用戶(“反應性”)工作流共享大量重疊,我確實打算重用這些工作流的一部分,而不是維護由不同工具執行的兩組工作流。

Apache Airflow 似乎是要求 1. 和 2. 的自然選擇,但似乎不支持第三個要求,因為它在(長)固定時隙中開始執行,並且不允許同時執行相同的多個實例DAG(工作流)。

是否有任何工具支持所有這些要求,或者我是否必須使用兩種不同的工作流管理工具,甚至必須為用戶工作流堅持使用(Python)腳本?

您可以使用 CLI 或 API 手動觸發 dag。 看看這篇文章: https://medium.com/@ntruong/airflow-externally-trigger-a-dag-when-a-condition-match-26cae67ecb1a

您必須測試是否可以同時執行多個 dag 運行。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM