繁体   English   中英

在 AWS 中监控 python shell 粘合作业

[英]Monitoring python shell glue jobs in AWS

在 AWS 文档中,他们指定了如何激活对 Spark 作业的监控( https://docs.aws.amazon.com/glue/latest/dg/monitor-profile-glue-job-cloudwatch-metrics.html ),但没有python shell 作业。

按原样使用代码会给我这个错误: ModuleNotFoundError: No module named 'pyspark'

更糟糕的是,在from pyspark.context import SparkContext ,我得到ModuleNotFoundError: No module named 'awsglue.context' 似乎 python shell 作业无法访问胶水上下文? 有没有人解决这个问题?

python shell 作业纯粹是基于 python 的环境,无权访问 Z77BB59DCD89559748E424B56956C1 后端。 您将无法在此处访问上下文属性。 这纯粹是一个火花概念,胶水本质上是 pyspark 的包装。

我正在进入胶水 python shell 作业,并解决我的 spark 作业和 pyshell 作业之间共享的一些代码文件中的一些依赖关系。 我能够解决 pyspark 依赖项,方法是在 requirements.txt 中创建 my.egg/.whl 文件,pyspark==2.4.7。 该版本是因为另一个库需要它。

您仍然不能使用上面艾默生提到的 pyspark 上下文,因为这是 python 运行时,而不是火花运行时。

因此,在使用 setuptools 构建发行版时,可以有一个如下所示的 requirements.txt,并且在设置 shell 时,它将安装这些依赖项:

elasticsearch
aws_requests_auth
PG8000
pyspark==2.4.7
awsglue-本地

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM