[英]Monitoring python shell glue jobs in AWS
在 AWS 文档中,他们指定了如何激活对 Spark 作业的监控( https://docs.aws.amazon.com/glue/latest/dg/monitor-profile-glue-job-cloudwatch-metrics.html ),但没有python shell 作业。
按原样使用代码会给我这个错误: ModuleNotFoundError: No module named 'pyspark'
更糟糕的是,在from pyspark.context import SparkContext
,我得到ModuleNotFoundError: No module named 'awsglue.context'
。 似乎 python shell 作业无法访问胶水上下文? 有没有人解决这个问题?
python shell 作业纯粹是基于 python 的环境,无权访问 Z77BB59DCD89559748E424B56956C1 后端。 您将无法在此处访问上下文属性。 这纯粹是一个火花概念,胶水本质上是 pyspark 的包装。
我正在进入胶水 python shell 作业,并解决我的 spark 作业和 pyshell 作业之间共享的一些代码文件中的一些依赖关系。 我能够解决 pyspark 依赖项,方法是在 requirements.txt 中创建 my.egg/.whl 文件,pyspark==2.4.7。 该版本是因为另一个库需要它。
您仍然不能使用上面艾默生提到的 pyspark 上下文,因为这是 python 运行时,而不是火花运行时。
因此,在使用 setuptools 构建发行版时,可以有一个如下所示的 requirements.txt,并且在设置 shell 时,它将安装这些依赖项:
elasticsearch
aws_requests_auth
PG8000
pyspark==2.4.7
awsglue-本地
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.