繁体   English   中英

如何在 pyspark 中的 AWS Glue 作业中避免 OOM 错误

[英]how can i avoid OOMs error in AWS Glue Job in pyspark

我在使用 40 个工作人员运行 AWS Glue 作业并处理 40GB 数据时遇到此错误

Caused by: org.apache.spark.memory.SparkOutOfMemoryError: error while calling spill() on org.apache.spark.util.collection.unsafe.sort.UnsafeExternalSorter@5fa14240 : No space left on device

我如何优化我的工作以避免在 pyspark 上出现此类错误

这是指标glue_metrics的图片

使用 Amazon S3 的 AWS Glue Spark 随机播放管理器

需要使用 Glue 2.0

请参阅以下链接。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM