繁体   English   中英

Camunda 作为数据管道/ETL 的调度器和编排器

[英]Camunda as scheduler and orchestrator of data-pipeline / ETL

我想知道是否有人将 Camunda 实现为数据管道/ETL 的调度器和编排器,并且可以分享他的经验。

例如,使用它代替 Airflow 的优缺点是什么?

谢谢

卡蒙达

Camunda 不提供连接器(如 S3、数据库、mongo、rabbitmq、kafka、powerBi),这只会使其成为 ETL 的弱候选者。 有人可能会说您有定制处理器 - 那么是的 - 您需要为这些处理器编写 Java 并实现 ETL。 我发现它适合人在循环决策过程建模。

Apache Airflow

我已经在 Apache Airflow https://github.com/kurtzace/airflow-experiments中尝试了许多实验 - 这个可以很好地制作 DAG。 有许多可以使用的连接器。 当然用一点点 python。使用 Spiff - 我们可以实现 BPMN 类型的实验。 与 Camunda 和 Apache airflow 相比,需要更少的代码。

缺点:高学习曲线 - 主要用于数据科学管道

Apache 尼菲

但另一方面 - 我发现 Apache Nifi 更适合它。 相比之下,需要更少的代码。 拥有许多预建处理器,例如 - 批处理/文件、http/https/rest、S3、json 变压器、csv 变压器、数据库连接、连接、合并、过滤。

缺点:Nifi 不适合 a。 处理时间超过 15 分钟 b. 表现得像火花分布式计算机 c。 每个连接的数据量超过 1 GB d. 复杂连接,滚动 window,例如 rabbitmq 类型事件

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM