簡體   English   中英

在EMR群集上運行Spark作業時發生異常“ java.io.IOException:所有數據節點均損壞”

[英]Exceptions while running Spark job on EMR cluster “java.io.IOException: All datanodes are bad”

我們擁有AWS EMR設置來處理用Scala編寫的作業。 我們能夠在小型數據集上運行作業,但是在大型數據集上運行相同作業時,出現異常“ java.io.IOException:所有數據節點均損壞。”

將spark.shuffle.service.enabled設置為true可以為我解決此問題。

AWS EMR的默認配置已將spark.dynamicAllocation.enabled設置為true,但將spark.shuffle.service.enabled設置為false

spark.dynamicAllocation.enabled允許Spark將執行程序動態分配給其他任務。 如果將spark.shuffle.service.enabled設置為false ,則將禁用外部隨機播放服務,並且數據僅存儲在執行程序上。 重新分配執行程序后,數據將丟失,並且出現異常“ java.io.IOException:所有數據節點均損壞”。 引發數據請求。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM