簡體   English   中英

Spark覆蓋模式和並發執行

[英]Spark overwrite mode and concurrent execution

我在使用覆蓋模式的地方有火花,例如:

  .repartition(10)
      .write
      .mode("overwrite")

這可以正常工作,但是由於某些代碼錯誤,我們最終開始了同一作業的多個並發執行,並最終在s3文件夾中出現了重復數據。

  • 有沒有辦法處理並發和覆蓋模式?

如果不,

  • 有沒有辦法快速失敗?

有沒有辦法處理並發和覆蓋模式?

並非沒有更高層次的協調

有沒有辦法快速失敗?

不要使用覆蓋

一般約定是“在某處編寫然后重命名”,這取決於重命名是專門提交工作的快速原子手段。 但是由於S3不能那樣工作,因此您也不能依靠它。

默認情況下,在Spark中,最大嘗試次數為兩次。 在Spark Submit命令中將其設置為1. --conf spark.yarn.maxAppAttempts = 1

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM