您如何使用 boto3（或其他方式）在 emr 上自动执行 pyspark 作业？

Question

我正在创建一个作业来解析大量服务器数据，然后将其上传到Redshift数据库中。

我的工作流程如下：

从 S3 抓取日志数据
使用 spark dataframes或 spark sql 来解析数据并写回 S3
将数据从 S3 上传到 Redshift。

不过，我对如何自动执行此操作感到困惑，以便我的进程启动一个 EMR 集群，引导正确的安装程序，并运行我的 Python 脚本，该脚本将包含用于解析和编写的代码。

有没有人有任何示例、教程或经验可以与我分享以帮助我学习如何做到这一点？

Answer 1

查看 boto3 EMR文档以创建集群。 您基本上必须调用run_job_flow并创建运行所需程序的步骤。

import boto3    

client = boto3.client('emr', region_name='us-east-1')

S3_BUCKET = 'MyS3Bucket'
S3_KEY = 'spark/main.py'
S3_URI = 's3://{bucket}/{key}'.format(bucket=S3_BUCKET, key=S3_KEY)

# upload file to an S3 bucket
s3 = boto3.resource('s3')
s3.meta.client.upload_file("myfile.py", S3_BUCKET, S3_KEY)

response = client.run_job_flow(
    Name="My Spark Cluster",
    ReleaseLabel='emr-4.6.0',
    Instances={
        'MasterInstanceType': 'm4.xlarge',
        'SlaveInstanceType': 'm4.xlarge',
        'InstanceCount': 4,
        'KeepJobFlowAliveWhenNoSteps': True,
        'TerminationProtected': False,
    },
    Applications=[
        {
            'Name': 'Spark'
        }
    ],
    BootstrapActions=[
        {
            'Name': 'Maximize Spark Default Config',
            'ScriptBootstrapAction': {
                'Path': 's3://support.elasticmapreduce/spark/maximize-spark-default-config',
            }
        },
    ],
    Steps=[
    {
        'Name': 'Setup Debugging',
        'ActionOnFailure': 'TERMINATE_CLUSTER',
        'HadoopJarStep': {
            'Jar': 'command-runner.jar',
            'Args': ['state-pusher-script']
        }
    },
    {
        'Name': 'setup - copy files',
        'ActionOnFailure': 'CANCEL_AND_WAIT',
        'HadoopJarStep': {
            'Jar': 'command-runner.jar',
            'Args': ['aws', 's3', 'cp', S3_URI, '/home/hadoop/']
        }
    },
    {
        'Name': 'Run Spark',
        'ActionOnFailure': 'CANCEL_AND_WAIT',
        'HadoopJarStep': {
            'Jar': 'command-runner.jar',
            'Args': ['spark-submit', '/home/hadoop/main.py']
        }
    }
    ],
    VisibleToAllUsers=True,
    JobFlowRole='EMR_EC2_DefaultRole',
    ServiceRole='EMR_DefaultRole'
)

如果您知道作业流 ID，您还可以向正在运行的集群添加步骤：

job_flow_id = response['JobFlowId']
print("Job flow ID:", job_flow_id)

step_response = client.add_job_flow_steps(JobFlowId=job_flow_id, Steps=SomeMoreSteps)

step_ids = step_response['StepIds']

print("Step IDs:", step_ids)

有关更多配置，请查看sparksteps 。

Answer 2

只需使用AWS Data Pipeline 即可。 您可以设置 S3 存储桶以在每次将新文件放入存储桶https://docs.aws.amazon.com/lambda/latest/dg/with-s3-example.html时触发 lambda 函数。 然后您的 Lambda 函数将激活您的数据管道https://aws.amazon.com/blogs/big-data/using-aws-lambda-for-event-driven-data-processing-pipelines/然后您的数据管道启动一个使用 EmrCluster 创建新的 EMR 集群，然后您可以指定引导选项，然后您可以使用 EmrActivity 运行您的 EMR 命令，当一切完成后，它将终止您的 EMR 集群并停用数据管道。

Answer 3

其实，我已经与AWS的步骤功能，这是一个状态机包装的lambda函数，所以你可以使用boto3使用来启动EMR星火工作run_job_flow ，您可以使用describe_cluaster来获取集群的状态。 最后使用一个选择。 所以你的步骤函数看起来像这样（括号中的步骤函数类型：

运行作业（任务）-> 等待 X 分钟（等待）-> 检查状态（任务）-> 分支（选择）[ => 返回等待，或 => 完成]

Answer 4

我在GitHub 上放了一个完整的例子，展示了如何使用 Boto3 完成所有这些。

长期集群示例展示了如何在集群上创建和运行作业步骤，该集群从包含历史亚马逊评论数据的公共 S3 存储桶中获取数据，对其进行一些 PySpark 处理，并将输出写回 S3 存储桶。

创建 Amazon S3 存储桶并上传作业脚本。
创建演示使用的 AWS Identity and Access Management (IAM) 角色。
创建演示使用的 Amazon Elastic Compute Cloud (Amazon EC2) 安全组。
创建短期和长期集群并在其上运行作业步骤。
终止集群并清理所有资源。

您如何使用 boto3（或其他方式）在 emr 上自动执行 pyspark 作业？

问题描述

4 个解决方案

解决方案1
32 已采纳 2016-05-09 13:39:55

解决方案2
2 2018-05-18 18:17:03

解决方案3
1 2018-09-16 18:57:48

解决方案4
0 2020-08-25 19:49:15

您如何使用 boto3（或其他方式）在 emr 上自动执行 pyspark 作业？

问题描述

4 个解决方案

解决方案1 32 已采纳 2016-05-09 13:39:55

解决方案2 2 2018-05-18 18:17:03

解决方案3 1 2018-09-16 18:57:48

解决方案4 0 2020-08-25 19:49:15

解决方案1
32 已采纳 2016-05-09 13:39:55

解决方案2
2 2018-05-18 18:17:03

解决方案3
1 2018-09-16 18:57:48

解决方案4
0 2020-08-25 19:49:15