繁体   English   中英

无法填充 AWS Glue ETL 作业指标

[英]Not able to populate AWS Glue ETL Job metrics

我正在尝试为某些测试填充最大可能的 Glue 作业指标,以下是我创建的设置:

  • 爬虫从放置在 S3 存储桶中的 CSV 文件中读取数据(500 行的虚拟客户数据)。
  • 使用另一个爬虫来爬取在 Redshift 集群中创建的表。
  • ETL 作业最终从 s3 中的 csv 文件中读取数据并将其转储到 Redshift 表中。

作业运行没有任何问题,我可以看到最终数据被转储到 Redshift 表中,但是,最后,只有低于 5 个 Cloudwatch 指标被填充:

  • 胶水.jvm.heap.usage
  • 胶水.jvm.heap.used
  • 胶水.s3.filesystem.read_bytes
  • 胶水.s3.filesystem.write_bytes
  • 胶水.system.cpuSystemLoad

还有大约 20 个指标没有被填充。

关于如何填充这些剩余指标的任何建议?

遇到了同样的问题。 你的glue.s3.filesystem.read_bytes 和glue.s3.filesystem.write_bytes 有数据吗?

一个可能的原因是,如果作业在 30 秒内完成,则不会发出 AWS Glue 作业指标

在运行作业时启用监控选项卡下的指标选项。

假设您使用 Glue 2.0 版进行上述作业,请注意 AWS Glue 2.0 版不使用动态分配,因此 ExecutorAllocationManager 指标不可用。 使用 Glue 1.0 的引用,您应该确认所有记录的指标现在都可用。


https://docs.aws.amazon.com/glue/latest/dg/reduced-start-times-spark-etl-jobs.html#reduced-start-times-limitations

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM