繁体 English 中英

Camunda 作为数据管道/ETL 的调度器和编排器

[英]Camunda as scheduler and orchestrator of data-pipeline / ETL

原文 2022-05-12 07:21:41 5 1 airflow/ etl/ camunda/ data-pipeline

我想知道是否有人将 Camunda 实现为数据管道/ETL 的调度器和编排器，并且可以分享他的经验。

例如，使用它代替 Airflow 的优缺点是什么？

谢谢

1 个解决方案

卡蒙达

Camunda 不提供连接器（如 S3、数据库、mongo、rabbitmq、kafka、powerBi），这只会使其成为 ETL 的弱候选者。 有人可能会说您有定制处理器 - 那么是的 - 您需要为这些处理器编写 Java 并实现 ETL。 我发现它适合人在循环决策过程建模。

Apache Airflow

我已经在 Apache Airflow https://github.com/kurtzace/airflow-experiments中尝试了许多实验 - 这个可以很好地制作 DAG。 有许多可以使用的连接器。 当然用一点点 python。使用 Spiff - 我们可以实现 BPMN 类型的实验。 与 Camunda 和 Apache airflow 相比，需要更少的代码。

缺点：高学习曲线 - 主要用于数据科学管道

Apache 尼菲

但另一方面 - 我发现 Apache Nifi 更适合它。 相比之下，需要更少的代码。 拥有许多预建处理器，例如 - 批处理/文件、http/https/rest、S3、json 变压器、csv 变压器、数据库连接、连接、合并、过滤。

缺点：Nifi 不适合 a。 处理时间超过 15 分钟 b. 表现得像火花分布式计算机 c。 每个连接的数据量超过 1 GB d. 复杂连接，滚动 window，例如 rabbitmq 类型事件

气流ETL管道 - 在功能中使用计划日期？

[英]Airflow ETL pipeline - using schedule date in functions?

ETL呈现数据而没有调度间隔延迟，同时不中断追赶

[英]ETL present data without the schedule interval delay while not breaking the Catchup

最佳数据管道框架

[英]Best data pipeline framework

数据管道解决方案

[英]Data Pipeline Solution

撤消/回滚数据处理管道的效果

[英]Undo/rollback the effects of a data processing pipeline

具有DAG和任务的ETL模型

[英]ETL model with DAGs and Tasks

Airflow DAG 调度程序循环在 Azure 数据工厂上产生高成本

[英]Airflow DAG scheduler loop generating high costs on Azure Data Factory

复杂数据管道迁移计划问题

[英]Complex Data Pipeline Migration Plan Question

运行`airflow Scheduler`启动33个调度程序进程

[英]Running `airflow scheduler` launches 33 scheduler processes

ETL in Airflow 由 Jupyter Notebooks 和 Papermill 协助

[英]ETL in Airflow aided by Jupyter Notebooks and Papermill

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 气流ETL管道 - 在功能中使用计划日期？ ETL呈现数据而没有调度间隔延迟，同时不中断追赶最佳数据管道框架数据管道解决方案撤消/回滚数据处理管道的效果具有DAG和任务的ETL模型 Airflow DAG 调度程序循环在 Azure 数据工厂上产生高成本复杂数据管道迁移计划问题运行`airflow Scheduler`启动33个调度程序进程 ETL in Airflow 由 Jupyter Notebooks 和 Papermill 协助

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM