繁体   English   中英

Cloud Dataflow 作业的调度

[英]Schedulling for Cloud Dataflow Job

所以,我已经完成了在 Dataflow 中创建作业。 此作业处理从 PostgreSQL 到 BigQuery 的 ETL。 所以,我不知道如何使用 Airflow 创建调度。可以分享如何使用 Airflow 调度作业数据流吗?

谢谢

您可以使用Cloud Scheduler (完全托管的 cron 作业调度程序)/ Cloud Composer (基于 Apache Airflow 构建的完全托管的工作流编排服务)来安排数据流批处理作业。

要使用 Cloud Scheduler 进行调度,请参阅使用 Cloud Scheduler 调度数据流批处理作业

要安排使用 Cloud Composer,请参阅Launching Dataflow pipelines with Cloud Composer using DataflowTemplateOperator

有关使用 Java/Python SDK 在 Airflow 中运行数据流作业的示例和更多方法,请参阅Google Cloud Dataflow Operators

在您的Airflow DAG 中,您可以使用schedule_interval参数定义一个cron和一个调度:

with airflow.DAG(
        my_dag,
        default_args=args,
        schedule_interval="5 3 * * *"

    # Trigger Dataflow job with an operator
    launch_dataflow_job = BeamRunPythonPipelineOperator(
        runner='DataflowRunner',
        py_file=python_main_file,
        task_id='launch_dataflow_job',
        pipeline_options=dataflow_job_options,
        py_system_site_packages=False,
        py_interpreter='python3',
        dataflow_config=DataflowConfiguration(
            location='region'
        )
    )

    launch_dataflow_job
    ......

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM