簡體   English   中英

無法填充 AWS Glue ETL 作業指標

[英]Not able to populate AWS Glue ETL Job metrics

我正在嘗試為某些測試填充最大可能的 Glue 作業指標,以下是我創建的設置:

  • 爬蟲從放置在 S3 存儲桶中的 CSV 文件中讀取數據(500 行的虛擬客戶數據)。
  • 使用另一個爬蟲來爬取在 Redshift 集群中創建的表。
  • ETL 作業最終從 s3 中的 csv 文件中讀取數據並將其轉儲到 Redshift 表中。

作業運行沒有任何問題,我可以看到最終數據被轉儲到 Redshift 表中,但是,最后,只有低於 5 個 Cloudwatch 指標被填充:

  • 膠水.jvm.heap.usage
  • 膠水.jvm.heap.used
  • 膠水.s3.filesystem.read_bytes
  • 膠水.s3.filesystem.write_bytes
  • 膠水.system.cpuSystemLoad

還有大約 20 個指標沒有被填充。

關於如何填充這些剩余指標的任何建議?

遇到了同樣的問題。 你的glue.s3.filesystem.read_bytes 和glue.s3.filesystem.write_bytes 有數據嗎?

一個可能的原因是,如果作業在 30 秒內完成,則不會發出 AWS Glue 作業指標

在運行作業時啟用監控選項卡下的指標選項。

假設您使用 Glue 2.0 版進行上述作業,請注意 AWS Glue 2.0 版不使用動態分配,因此 ExecutorAllocationManager 指標不可用。 使用 Glue 1.0 的引用,您應該確認所有記錄的指標現在都可用。


https://docs.aws.amazon.com/glue/latest/dg/reduced-start-times-spark-etl-jobs.html#reduced-start-times-limitations

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM