簡體 English 中英

Camunda 作為數據管道/ETL 的調度器和編排器

[英]Camunda as scheduler and orchestrator of data-pipeline / ETL

原文 2022-05-12 07:21:41 1 1 airflow/ etl/ camunda/ data-pipeline

我想知道是否有人將 Camunda 實現為數據管道/ETL 的調度器和編排器，並且可以分享他的經驗。

例如，使用它代替 Airflow 的優缺點是什么？

謝謝

1 個解決方案

卡蒙達

Camunda 不提供連接器（如 S3、數據庫、mongo、rabbitmq、kafka、powerBi），這只會使其成為 ETL 的弱候選者。 有人可能會說您有定制處理器 - 那么是的 - 您需要為這些處理器編寫 Java 並實現 ETL。 我發現它適合人在循環決策過程建模。

Apache Airflow

我已經在 Apache Airflow https://github.com/kurtzace/airflow-experiments中嘗試了許多實驗 - 這個可以很好地制作 DAG。 有許多可以使用的連接器。 當然用一點點 python。使用 Spiff - 我們可以實現 BPMN 類型的實驗。 與 Camunda 和 Apache airflow 相比，需要更少的代碼。

缺點：高學習曲線 - 主要用於數據科學管道

Apache 尼菲

但另一方面 - 我發現 Apache Nifi 更適合它。 相比之下，需要更少的代碼。 擁有許多預建處理器，例如 - 批處理/文件、http/https/rest、S3、json 變壓器、csv 變壓器、數據庫連接、連接、合並、過濾。

缺點：Nifi 不適合 a。 處理時間超過 15 分鍾 b. 表現得像火花分布式計算機 c。 每個連接的數據量超過 1 GB d. 復雜連接，滾動 window，例如 rabbitmq 類型事件

氣流ETL管道 - 在功能中使用計划日期？

[英]Airflow ETL pipeline - using schedule date in functions?

ETL呈現數據而沒有調度間隔延遲，同時不中斷追趕

[英]ETL present data without the schedule interval delay while not breaking the Catchup

最佳數據管道框架

[英]Best data pipeline framework

數據管道解決方案

[英]Data Pipeline Solution

撤消/回滾數據處理管道的效果

[英]Undo/rollback the effects of a data processing pipeline

具有DAG和任務的ETL模型

[英]ETL model with DAGs and Tasks

Airflow DAG 調度程序循環在 Azure 數據工廠上產生高成本

[英]Airflow DAG scheduler loop generating high costs on Azure Data Factory

復雜數據管道遷移計划問題

[英]Complex Data Pipeline Migration Plan Question

運行`airflow Scheduler`啟動33個調度程序進程

[英]Running `airflow scheduler` launches 33 scheduler processes

ETL in Airflow 由 Jupyter Notebooks 和 Papermill 協助

[英]ETL in Airflow aided by Jupyter Notebooks and Papermill

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 氣流ETL管道 - 在功能中使用計划日期？ ETL呈現數據而沒有調度間隔延遲，同時不中斷追趕最佳數據管道框架數據管道解決方案撤消/回滾數據處理管道的效果具有DAG和任務的ETL模型 Airflow DAG 調度程序循環在 Azure 數據工廠上產生高成本復雜數據管道遷移計划問題運行`airflow Scheduler`啟動33個調度程序進程 ETL in Airflow 由 Jupyter Notebooks 和 Papermill 協助

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM