繁体   English   中英

我可以将 google DataFlow 与本机 python 一起使用吗?

[英]Can I use google DataFlow with native python?

我正在尝试在谷歌云中构建一个 python ETL 管道,而谷歌云数据流似乎是一个不错的选择。 当我浏览文档和开发人员指南时,我看到 apache beam 始终附加到数据流,因为它基于它。 我可能会在 apache beam 中发现处理我的数据帧的问题。

我的问题是:

  • 如果我想使用 DataFlow 在本机 python 中构建我的 ETL 脚本,这可能吗? 或者有必要为我的 ETL 使用 apache 光束?
  • 如果 DataFlow 只是为了使用 Apache Beam 而构建的? 是否有用于构建 python ETL 的无服务器谷歌云工具(谷歌云 function 执行时间为 9 分钟,这可能会导致我的管道出现一些问题,我想在执行限制中避免)

我的管道旨在从 BigQuery 处理它读取数据并将其重新保存在一个 bigquery 表中。 我可能会在我的脚本中使用一些外部 API。

关于你的第一个问题,看起来数据流主要是为了在 Apache SDK 中使用它而编写的,可以在数据流的官方谷歌云文档中查看 因此,实际上可能需要为您的 ETL 使用 Apache Beam。

关于您的第二个问题, 本教程将指导您如何使用 Python 和 Google Cloud Platform 函数构建自己的 ETL 管道,这些管道实际上是无服务器的。 您能否确认此链接是否对您有所帮助?

关于你的第一个问题,Dataflow需要使用Apache Beam。 事实上,在 Apache Beam 之前,有一个叫做 Dataflow SDK 的东西,它是 Google 专有的,然后开源给 Apache Beam。

Python Beam SDK 是相当容易的,一旦你付出了一些努力,你需要的主要流程操作非常接近原生 Python 语言。

如果您的最终目标是读取、处理和写入 BQ,我会说 Beam + Dataflow 是一个很好的搭配。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM