簡體   English   中英

最佳數據管道框架

[英]Best data pipeline framework

符合以下要求的最佳數據管道框架是什么?:

  • 開源/免費使用
  • 需要使用 Python 創建數據管道(應該支持 Geopandas,Pandas,Numpy,...)
  • 支持手動和時間觸發的管道
  • Web 接口,非技術用戶可以在其中啟動管道(訂單數據)。 必須可以使用需要在運行時定義的變量。
  • 支持在單個 Docker 容器中運行管道的能力
  • 與源代碼控制 (GIT) 集成。 即從GIT下載最新的日期管道

我調查了 Apache Airflow,但想知道市場上是否有更好的替代品,它支持上面定義的要求:)

我即將提出一個幾乎符合您所有要求的框架。 Versatile Data Kit 是一個 DataOps 框架,允許任何具有基本 SQL 或 Python 知識的人創建數據管道

我會遵循你的觀點:

  • 它是開源的並且可以免費使用。
  • 可以使用 Python、SQL 或兩者來創建數據管道。
  • 它可以通過 CLI 手動觸發,也可以通過配置文件中的類似 cron 的行進行調度。
  • 近期發布了Apache Airflow集成,可以作為非技術用戶觸發管道的接口。 從理論上講,應該可以使用 Airflow 設置變量,但此時我們在 VDK Airflow Provider 中不支持該設置。
  • 它在 Kubernetes 上運行。 部署后,每個數據作業都會在 docker 容器中運行。
  • 使用 git 部署數據作業。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM