繁体   English   中英

AWS Glue 中的 AWS 区域

[英]AWS region in AWS Glue

如何获取当前 Glue 作业正在执行的区域?


当胶水作业开始执行时,我看到了输出

Detected region eu-central-1

在 AWS Lambda 中,我可以使用以下几行来获取当前区域:

import os
region = os.environ['AWS_REGION']

但是,Glue 中似乎不存在AWS_REGION环境变量,因此引发了KeyError

KeyError: 'AWS_REGION'


我需要该区域的原因是我试图获取此问题中描述的所有数据库和表,并且我不想在创建 boto 客户端时对区域进行硬编码。

一种选择是将AWS_REGION作为作业参数传递。 例如,如果您从 Lambda 触发作业:

import os

response = client.start_job_run(
    JobName = 'a_job_name',
    Arguments = {'--AWS_REGION': os.environ['AWS_REGION'] } 
)

或者,如果您使用AWS::Glue::Job CloudFormation 资源定义您的作业:

GlueJob:
  Type: AWS::Glue::Job
  Properties:
    Role: !Ref GlueRole
    DefaultArguments:
      "--AWS_REGION": !Sub "${AWS::Region}"
    Command:
      ScriptLocation: !Sub s3://${GlueScriptBucket}/glue-job.py
      Name: glueetl

然后,您可以使用getResolvedOptions提取作业代码中的AWS_REGION参数:

import sys
from awsglue.utils import getResolvedOptions

args = getResolvedOptions(sys.argv, ['AWS_REGION'])
print('region', args['AWS_REGION'])

请改用os.environ['AWS_DEFAULT_REGION']

把这个留给新访客。

os.environ['AWS_DEFAULT_REGION']适用于 Glue 版本2.0 和 3.0 ,但在以前的版本中不存在。 它提供区域代码,例如us-east-1

正如另一个答案所建议的,这通过运行一个小的 PySpark 脚本来打印出所有 Glue 版本上的环境变量来确认。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM