簡體 English 中英

Spark結構化流Kafka集成偏移管理

[英]Spark Structured Streaming Kafka Integration Offset management

原文 2018-09-15 08:16:46 4 1 scala/ apache-spark/ spark-structured-streaming

該文件說：

enable.auto.commit：Kafka源不提交任何偏移量。

因此，我的問題是，在工作程序或分區崩潰/重新啟動的情況下：

startingOffsets設置為最新，我們如何不丟失消息？
startingOffsets設置為最早，我們如何不重新處理所有消息？

這似乎很重要。 有什么跡象表明如何處理嗎？

1 個解決方案

我也遇到了這個問題。

您對兩個選項的觀察是正確的，即

如果startingOffsets設置為latest則可能會導致數據丟失
如果startingOffsets設置為earliest則重復數據

然而...

通過添加以下選項，可以選擇檢查點：

.writeStream .<something else> .option("checkpointLocation", "path/to/HDFS/dir") .<something else>

如果發生故障，Spark將遍歷此檢查點目錄的內容，在接受任何新數據之前恢復狀態。

我發現相同的有用的參考。

希望這可以幫助！

Spark Streaming Kafka 中的 DStream 過濾和偏移管理

[英]DStream filtering and offset management in Spark Streaming Kafka

在使用 Kafka 的 Spark Structured streaming 中，Spark 如何管理多個主題的偏移量

[英]In Spark Structured streaming with Kafka, how spark manages offset for multiple topics

Spark結構化流+ Kafka集成：MicroBatchExecution PartitionOffsets錯誤

[英]Spark Structured Streaming + Kafka Integration: MicroBatchExecution PartitionOffsets Error

Kafka protobuf 的 Spark 結構化流

[英]Spark structured streaming of Kafka protobuf

Spark結構化流與Hbase集成

[英]Spark Structured Streaming with Hbase integration

Spark Streaming + Kafka集成0.8.2.1

[英]Spark Streaming + Kafka Integration 0.8.2.1

Spark 2.0.2，Kafka源和scalapb實現結構化流

[英]structured streaming with Spark 2.0.2, Kafka source and scalapb

Spark Structured Streaming 不會在 Kafka 偏移量處重新啟動

[英]Spark Structured Streaming not restarting at Kafka offsets

連接火花結構化流+ kafka時出錯

[英]Error when connecting spark structured streaming + kafka

KafkaUtils API | 抵消管理| Spark Streaming

[英]KafkaUtils API | offset management | Spark Streaming

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Spark Streaming Kafka 中的 DStream 過濾和偏移管理在使用 Kafka 的 Spark Structured streaming 中，Spark 如何管理多個主題的偏移量 Spark結構化流+ Kafka集成：MicroBatchExecution PartitionOffsets錯誤 Kafka protobuf 的 Spark 結構化流 Spark結構化流與Hbase集成 Spark Streaming + Kafka集成0.8.2.1 Spark 2.0.2，Kafka源和scalapb實現結構化流 Spark Structured Streaming 不會在 Kafka 偏移量處重新啟動連接火花結構化流+ kafka時出錯 KafkaUtils API | 抵消管理| Spark Streaming

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM