從Kafka倒轉偏移Spark結構化流

Question

我正在使用Spark結構化流（2.2.1）來使用Kafka（0.10）中的主題。

 val df = spark
      .readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", fromKafkaServers)
      .option("subscribe", topicName)
      .option("startingOffset", "earliest")
      .load()

我的檢查點位置在外部HDFS目錄上設置。 在某些情況下，我想重新啟動流應用程序並從一開始就使用數據。 但是，即使我從HDFS目錄中刪除了所有檢查點數據並重新提交了jar，Spark仍然能夠找到我最后消耗的偏移量並從那里恢復。 偏移量還住在哪里？ 我懷疑它與Kafka Consumer ID有關。 但是，我無法使用每個Spark Doc的 spark結構化流來設置group.id，看來所有訂閱同一主題的應用程序都分配給一個使用者組。 如果我想運行兩個訂閱相同主題的獨立流式作業怎么辦？

Answer 1

你有錯字:)它是startingOffsets

從Kafka倒轉偏移Spark結構化流

問題描述

1 個解決方案

解決方案1
4 2018-04-19 18:15:02

從Kafka倒轉偏移Spark結構化流

問題描述

1 個解決方案

解決方案1 4 2018-04-19 18:15:02

解決方案1
4 2018-04-19 18:15:02