繁体   English   中英

哪种开源框架最适合ETL Apache Airflow或Apache Beam?

[英]Which open source framework is best for ETL Apache Airflow or Apache Beam?

我正在尝试使用开放源代码框架进行ETL,我听说过Apache Beam和Apache Airflow这两件事,其中最适合整个ETL或ELT的是Talend,Azure Data Factory等,事实上,我尝试使用云数据仓库(redshift,azure数据仓库,snowflare等)做所有事情,这对这类工作是有好处的,如果我能对这两个框架进行一些比较,那就太好了。 提前致谢。

Apache Airflow不是ETL框架,它是计划和监视工作流的应用程序,它将计划和监视您的ETL管道。 Apache Beam是用于定义数据处理工作流的统一模型。

这意味着您的ETL管道将使用Apache Beam编写,而Airflow将触发并安排这些管道。

Apache Airflow:是一种调度和监视工具。 您需要编写ETL脚本(使用Python或Scala编写),然后使用Apache Airflow运行该脚本。

Talend,Informatica之类的工具提供了许多丰富的UI和内置功能,您可以在其中执行简单的工作,例如将数据转储到高度复杂的转换。 除此以外,还可以使用其自身的调度功能来完成编排等。

如果您要构建具有很多复杂性的企业级数据仓库,我建议您使用企业级ETL工具。 这将为您带来可管理性,支持,调试等方面的长期利益。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM