[英]Schedulling for Cloud Dataflow Job
所以,我已经完成了在 Dataflow 中创建作业。 此作业处理从 PostgreSQL 到 BigQuery 的 ETL。 所以,我不知道如何使用 Airflow 创建调度。可以分享如何使用 Airflow 调度作业数据流吗?
谢谢
您可以使用Cloud Scheduler (完全托管的 cron 作业调度程序)/ Cloud Composer (基于 Apache Airflow 构建的完全托管的工作流编排服务)来安排数据流批处理作业。
要使用 Cloud Scheduler 进行调度,请参阅使用 Cloud Scheduler 调度数据流批处理作业
要安排使用 Cloud Composer,请参阅Launching Dataflow pipelines with Cloud Composer using DataflowTemplateOperator 。
有关使用 Java/Python SDK 在 Airflow 中运行数据流作业的示例和更多方法,请参阅Google Cloud Dataflow Operators
在您的Airflow
DAG 中,您可以使用schedule_interval
参数定义一个cron
和一个调度:
with airflow.DAG(
my_dag,
default_args=args,
schedule_interval="5 3 * * *"
# Trigger Dataflow job with an operator
launch_dataflow_job = BeamRunPythonPipelineOperator(
runner='DataflowRunner',
py_file=python_main_file,
task_id='launch_dataflow_job',
pipeline_options=dataflow_job_options,
py_system_site_packages=False,
py_interpreter='python3',
dataflow_config=DataflowConfiguration(
location='region'
)
)
launch_dataflow_job
......
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.