[英]How can I tell Dataflow to "use_unsupported_python_version" with PipelineOptions?
[英]Can I use google DataFlow with native python?
我正在尝试在谷歌云中构建一个 python ETL 管道,而谷歌云数据流似乎是一个不错的选择。 当我浏览文档和开发人员指南时,我看到 apache beam 始终附加到数据流,因为它基于它。 我可能会在 apache beam 中发现处理我的数据帧的问题。
我的问题是:
我的管道旨在从 BigQuery 处理它读取数据并将其重新保存在一个 bigquery 表中。 我可能会在我的脚本中使用一些外部 API。
关于你的第一个问题,Dataflow需要使用Apache Beam。 事实上,在 Apache Beam 之前,有一个叫做 Dataflow SDK 的东西,它是 Google 专有的,然后开源给 Apache Beam。
Python Beam SDK 是相当容易的,一旦你付出了一些努力,你需要的主要流程操作非常接近原生 Python 语言。
如果您的最终目标是读取、处理和写入 BQ,我会说 Beam + Dataflow 是一个很好的搭配。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.