簡體   English   中英

Camunda 作為數據管道/ETL 的調度器和編排器

[英]Camunda as scheduler and orchestrator of data-pipeline / ETL

我想知道是否有人將 Camunda 實現為數據管道/ETL 的調度器和編排器,並且可以分享他的經驗。

例如,使用它代替 Airflow 的優缺點是什么?

謝謝

卡蒙達

Camunda 不提供連接器(如 S3、數據庫、mongo、rabbitmq、kafka、powerBi),這只會使其成為 ETL 的弱候選者。 有人可能會說您有定制處理器 - 那么是的 - 您需要為這些處理器編寫 Java 並實現 ETL。 我發現它適合人在循環決策過程建模。

Apache Airflow

我已經在 Apache Airflow https://github.com/kurtzace/airflow-experiments中嘗試了許多實驗 - 這個可以很好地制作 DAG。 有許多可以使用的連接器。 當然用一點點 python。使用 Spiff - 我們可以實現 BPMN 類型的實驗。 與 Camunda 和 Apache airflow 相比,需要更少的代碼。

缺點:高學習曲線 - 主要用於數據科學管道

Apache 尼菲

但另一方面 - 我發現 Apache Nifi 更適合它。 相比之下,需要更少的代碼。 擁有許多預建處理器,例如 - 批處理/文件、http/https/rest、S3、json 變壓器、csv 變壓器、數據庫連接、連接、合並、過濾。

缺點:Nifi 不適合 a。 處理時間超過 15 分鍾 b. 表現得像火花分布式計算機 c。 每個連接的數據量超過 1 GB d. 復雜連接,滾動 window,例如 rabbitmq 類型事件

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM