AWS Glue 自动创建作业

Question

我有可以在 AWS GLUE 中运行的 pyspark 脚本。 但是每次我从 UI 创建作业并将我的代码复制到作业时。无论如何我可以从 s3 存储桶中的文件自动创建作业。 （我拥有运行时将使用的所有库和胶水上下文）

Answer 1

另一种选择是使用AWS CloudFormation 。 您可以在模板文件中定义要创建的所有 AWS 资源（不仅是 Glue 作业），然后在需要时从AWS 控制台或使用 cli更新堆栈。

胶水作业的模板如下所示：

  MyJob:
    Type: AWS::Glue::Job
    Properties:
      Command:
        Name: glueetl
        ScriptLocation: "s3://aws-glue-scripts//your-script-file.py"
      DefaultArguments:
        "--job-bookmark-option": "job-bookmark-enable"
      ExecutionProperty:
        MaxConcurrentRuns: 2
      MaxRetries: 0
      Name: cf-job1
      Role: !Ref MyJobRole # reference to a Role resource which is not presented here

Answer 2

对的，这是可能的。 例如，您可以为此使用 boto3 框架。

https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/glue.html#Glue.Client.create_job

https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-calling.html

Answer 3

我编写了执行以下操作的脚本：

我们有 (glue)_dependency.txt 文件，脚本获取所有依赖文件的路径并创建 zip 文件。
它使用 s3 同步在 S3 中上传胶水文件和 zip 文件
或者，如果作业设置有任何更改，将重新部署 cloudformation 模板

您可以编写 shell 脚本来执行此操作。

Answer 4

我创建了一个名为datajob开源库来部署和编排粘合作业。 您可以在 github https://github.com/vincentclaes/datajob和 pypi 上找到它

pip install datajob
npm install -g aws-cdk@1.87.1

您创建一个文件datajob_stack.py来描述您的粘合作业及其编排方式：

from datajob.datajob_stack import DataJobStack
from datajob.glue.glue_job import GlueJob
from datajob.stepfunctions.stepfunctions_workflow import StepfunctionsWorkflow


with DataJobStack(stack_name="data-pipeline-simple") as datajob_stack:

    # here we define 3 glue jobs with a relative path to the source code.
    task1 = GlueJob(
        datajob_stack=datajob_stack,
        name="task1",
        job_path="data_pipeline_simple/task1.py",
    )
    task2 = GlueJob(
        datajob_stack=datajob_stack,
        name="task2",
        job_path="data_pipeline_simple/task2.py",
    )
    task3 = GlueJob(
        datajob_stack=datajob_stack,
        name="task3",
        job_path="data_pipeline_simple/task3.py",
    )

    # we instantiate a step functions workflow and add the sources
    # we want to orchestrate. 
    with StepfunctionsWorkflow(
        datajob_stack=datajob_stack, name="data-pipeline-simple"
    ) as sfn:
        [task1, task2] >> task3

要部署您的代码以粘合执行：

export AWS_PROFILE=my-profile    
datajob deploy --config datajob_stack.py

非常感谢任何反馈！

AWS Glue 自动创建作业

问题描述

4 个解决方案

解决方案1
4 2019-01-15 23:19:47

解决方案2
0 2019-01-15 07:13:44

解决方案3
0 2019-01-16 07:41:18

解决方案4
0 2021-02-25 10:53:39

AWS Glue 自动创建作业

问题描述

4 个解决方案

解决方案1 4 2019-01-15 23:19:47

解决方案2 0 2019-01-15 07:13:44

解决方案3 0 2019-01-16 07:41:18

解决方案4 0 2021-02-25 10:53:39

解决方案1
4 2019-01-15 23:19:47

解决方案2
0 2019-01-15 07:13:44

解决方案3
0 2019-01-16 07:41:18

解决方案4
0 2021-02-25 10:53:39