繁体   English   中英

预计 ETA 在使用 python 的 apache beam GCP 数据流管道中使用管道 I/O 和运行时参数?

[英]Expected ETA to avail Pipeline I/O and runtime parameters in apache beam GCP dataflow pipeline using python?

只是想知道我们是否有更多的管道 I/O 和运行时参数可用于新版本 (3.X) 的 python。 如果我是正确的,那么当前 apache beam 在使用 python 时只提供基于文件的 IO:textio、avroio、tfrecordio。 但是对于 Java,我们有更多可用选项,例如基于文件的 IO、BigQueryIO、BigtableIO、PubSubIO 和 SpannerIO。

在我的要求中,我想在使用 python 3.X 的 GCP 数据流管道中使用 BigQueryIO,但目前它不可用。 有没有人有关于 ETA 的一些更新,什么时候可以通过 apache beam 获得。

Python 3 的 BigTable 连接器已经开发了一段时间。 目前,没有 ETA,但您可以关注官方 Apache Beam 存储库中的相关Pull-Request以获取进一步更新。

BigQueryIO在 Apache Beam Python SDK 中已经可用了很长时间。

还有一个Pub/Sub IOBigTable (write) 可用 SpannerIO正在开发中。

此页面有更多详细信息https://beam.apache.org/documentation/io/built-in/

更新:

根据 OP 提供的更多详细信息,事实证明确实不支持在 BigQuery 查询字符串中使用值提供程序。

这已在以下 PR 中得到解决: https : //github.com/apache/beam/pull/11040,并且很可能成为 2.21.0 版本的一部分。

更新 2:此新功能已添加到 Apache Beam 的 2.20.0 版本https://beam.apache.org/blog/2020/04/15/beam-2.20.0.html

希望它能解决您的问题!

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM