繁体   English   中英

在EMR群集上运行Spark作业时发生异常“ java.io.IOException:所有数据节点均损坏”

[英]Exceptions while running Spark job on EMR cluster “java.io.IOException: All datanodes are bad”

我们拥有AWS EMR设置来处理用Scala编写的作业。 我们能够在小型数据集上运行作业,但是在大型数据集上运行相同作业时,出现异常“ java.io.IOException:所有数据节点均损坏。”

将spark.shuffle.service.enabled设置为true可以为我解决此问题。

AWS EMR的默认配置已将spark.dynamicAllocation.enabled设置为true,但将spark.shuffle.service.enabled设置为false

spark.dynamicAllocation.enabled允许Spark将执行程序动态分配给其他任务。 如果将spark.shuffle.service.enabled设置为false ,则将禁用外部随机播放服务,并且数据仅存储在执行程序上。 重新分配执行程序后,数据将丢失,并且出现异常“ java.io.IOException:所有数据节点均损坏”。 引发数据请求。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM