[英]DStream filtering and offset management in Spark Streaming Kafka
[英]Spark Structured Streaming Kafka Integration Offset management
該文件說:
enable.auto.commit:Kafka源不提交任何偏移量。
因此,我的問題是,在工作程序或分區崩潰/重新啟動的情況下:
這似乎很重要。 有什么跡象表明如何處理嗎?
我也遇到了這個問題。
您對兩個選項的觀察是正確的,即
startingOffsets
設置為latest
則可能會導致數據丟失 startingOffsets
設置為earliest
則重復數據 然而...
通過添加以下選項,可以選擇檢查點:
.writeStream .<something else> .option("checkpointLocation", "path/to/HDFS/dir") .<something else>
如果發生故障,Spark將遍歷此檢查點目錄的內容,在接受任何新數據之前恢復狀態。
我發現相同的有用的參考 。
希望這可以幫助!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.