簡體   English   中英

從Kafka倒轉偏移Spark結構化流

[英]Rewind Offset Spark Structured Streaming from Kafka

我正在使用Spark結構化流(2.2.1)來使用Kafka(0.10)中的主題。

 val df = spark
      .readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", fromKafkaServers)
      .option("subscribe", topicName)
      .option("startingOffset", "earliest")
      .load()

我的檢查點位置在外部HDFS目錄上設置。 在某些情況下,我想重新啟動流應用程序並從一開始就使用數據。 但是,即使我從HDFS目錄中刪除了所有檢查點數據並重新提交了jar,Spark仍然能夠找到我最后消耗的偏移量並從那里恢復。 偏移量還住在哪里? 我懷疑它與Kafka Consumer ID有關。 但是,我無法使用每個Spark Doc的 spark結構化流來設置group.id,看來所有訂閱同一主題的應用程序都分配給一個使用者組。 如果我想運行兩個訂閱相同主題的獨立流式作業怎么辦?

你有錯字:)它是startingOffsets

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM