繁体   English   中英

最佳数据管道框架

[英]Best data pipeline framework

符合以下要求的最佳数据管道框架是什么?:

  • 开源/免费使用
  • 需要使用 Python 创建数据管道(应该支持 Geopandas,Pandas,Numpy,...)
  • 支持手动和时间触发的管道
  • Web 接口,非技术用户可以在其中启动管道(订单数据)。 必须可以使用需要在运行时定义的变量。
  • 支持在单个 Docker 容器中运行管道的能力
  • 与源代码控制 (GIT) 集成。 即从GIT下载最新的日期管道

我调查了 Apache Airflow,但想知道市场上是否有更好的替代品,它支持上面定义的要求:)

我即将提出一个几乎符合您所有要求的框架。 Versatile Data Kit 是一个 DataOps 框架,允许任何具有基本 SQL 或 Python 知识的人创建数据管道

我会遵循你的观点:

  • 它是开源的并且可以免费使用。
  • 可以使用 Python、SQL 或两者来创建数据管道。
  • 它可以通过 CLI 手动触发,也可以通过配置文件中的类似 cron 的行进行调度。
  • 近期发布了Apache Airflow集成,可以作为非技术用户触发管道的接口。 从理论上讲,应该可以使用 Airflow 设置变量,但此时我们在 VDK Airflow Provider 中不支持该设置。
  • 它在 Kubernetes 上运行。 部署后,每个数据作业都会在 docker 容器中运行。
  • 使用 git 部署数据作业。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM