[英]how can i avoid OOMs error in AWS Glue Job in pyspark
我在使用 40 个工作人员运行 AWS Glue 作业并处理 40GB 数据时遇到此错误
Caused by: org.apache.spark.memory.SparkOutOfMemoryError: error while calling spill() on org.apache.spark.util.collection.unsafe.sort.UnsafeExternalSorter@5fa14240 : No space left on device
我如何优化我的工作以避免在 pyspark 上出现此类错误
这是指标glue_metrics的图片
使用 Amazon S3 的 AWS Glue Spark 随机播放管理器
需要使用 Glue 2.0
请参阅以下链接。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.