繁体   English   中英

如何使用自定义 Docker 图像运行 Python Google Cloud Dataflow 作业?

[英]How to run a Python Google Cloud Dataflow job with a custom Docker image?

我想使用自定义 Docker 图像运行 Python Google Cloud Dataflow 作业。

根据文档,这应该是可能的: https://beam.apache.org/documentation/runtime/environments/#testing-customized-images

为了尝试这个功能,我使用这个公共仓库 https 中的文档的命令行选项设置了基本的 wordcount 示例管道https://github.com/swartchris8/beam_wordcount_with_docker

我可以使用apachebeam/python3.6_sdk图像在本地使用 PortableRunner 运行 wordcount 作业,使用 Dataflow 我无法执行此操作

对于 PortableRunner,我尽可能密切地关注文档,我的参数是:

python -m wordcount --input wordcount.py \
--output counts \
--runner=PortableRunner \
--job_endpoint=embed \
--environment_config=apachebeam/python3.6_sdk

对于数据流:

python -m wordcount --input wordcount.py \
--output gs://healx-pubmed-ingestion-tmp/test/wordcount/count/count \\
--runner=DataflowRunner \
--project=healx-pubmed-ingestion \
--job_name=dataflow-wordcount-docker \
--temp_location=gs://healx-pubmed-ingestion-tmp/test/wordcount/tmp \
--experiment=beam_fn_api \
--sdk_location=/Users/chris/beam/sdks/python/container/py36/build/target/apache-beam.tar.gz \
--worker_harness_container_image=apachebeam/python3.6_sdk \
--region europe-west1 \
--zone europe-west1-c

有关完整的详细信息,请参阅链接的 repo。

我在这里做错了什么,或者 Dataflow 中的 Python 作业不支持此功能?

您应该能够将自定义容器与带有--experiment=--use_runner_v2的 Dataflow 一起使用,默认情况下很快就会启用。 示例命令行可能如下所示:

pip install apache-beam[gcp]==2.24.0
python -m apache_beam.examples.wordcount \
--output gs://healx-pubmed-ingestion-tmp/test/wordcount/ \
--runner=DataflowRunner \
--project=healx-pubmed-ingestion \
--region europe-west1 \
--temp_location=gs://healx-pubmed-ingestion-tmp/test/wordcount/tmp \
--worker_harness_container_image=apache/beam_python3.6_sdk:2.24.0 \
--experiment=use_runner_v2
                           

要自定义容器,请按照https://beam.apache.org/documentation/runtime/environments/#customizing-container-images上的说明进行操作。

不幸的是,Dataflow 目前使用自己的(不兼容的)工作容器,但正在积极解决这个问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM