Spark Kafka Streaming多分區CommitAsync問題

Question

我正在閱讀來自Kafka主題的消息，該主題具有多個分區。 從消息中讀取沒有問題，而將偏移范圍提交給Kafka時，卻出現錯誤。 我已盡力嘗試了該級別，但無法解決此問題。

碼

object ParallelStreamJob {

  def main(args: Array[String]): Unit = {
    val spark = SparkHelper.getOrCreateSparkSession()
    val ssc = new StreamingContext(spark.sparkContext, Seconds(10))
    spark.sparkContext.setLogLevel("WARN")
    val kafkaStream = {
      val kafkaParams = Map[String, Object](
        "bootstrap.servers" -> "localhost:9092",
        "key.deserializer" -> classOf[StringDeserializer],
        "value.deserializer" -> classOf[StringDeserializer],
        "group.id" -> "welcome3",

        "auto.offset.reset" -> "latest",
        "enable.auto.commit" -> (false: java.lang.Boolean)
      )

      val topics = Array("test2")
      val numPartitionsOfInputTopic = 2
      val streams = (1 to numPartitionsOfInputTopic) map {
        _ => KafkaUtils.createDirectStream[String, String]( ssc, PreferConsistent, Subscribe[String, String](topics, kafkaParams) )
      }
     streams
    }

   // var offsetRanges = Array[OffsetRange]()
    kafkaStream.foreach(rdd=> {
      rdd.foreachRDD(conRec=> {
        val offsetRanges = conRec.asInstanceOf[HasOffsetRanges].offsetRanges
        conRec.foreach(str=> {
          println(str.value())
          for (o <- offsetRanges) {
            println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")
          }
        })

          kafkaStream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
      })

    })

    println(" Spark parallel reader is ready !!!")


    ssc.start()
    ssc.awaitTermination()
  }
}

錯誤

18/03/19 21:21:30 ERROR JobScheduler: Error running job streaming job 1521512490000 ms.0
java.lang.ClassCastException: scala.collection.immutable.Vector cannot be cast to org.apache.spark.streaming.kafka010.CanCommitOffsets
    at com.cts.ignite.inventory.core.ParallelStreamJob$$anonfun$main$1$$anonfun$apply$1.apply(ParallelStreamJob.scala:48)
    at com.cts.ignite.inventory.core.ParallelStreamJob$$anonfun$main$1$$anonfun$apply$1.apply(ParallelStreamJob.scala:39)
    at org.apache.spark.streaming.dstream.DStream$$anonfun$foreachRDD$1$$anonfun$apply$mcV$sp$3.apply(DStream.scala:628)
    at org.apache.spark.streaming.dstream.DStream$$anonfun$foreachRDD$1$$anonfun$apply$mcV$sp$3.apply(DStream.scala:628)
    at org.a

Answer 1

您可以像這樣提交偏移量

stream.foreachRDD { rdd =>
  val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

  // some time later, after outputs have completed
  stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
}

在您的情況下， kafkaStream是流的Seq 。 更改您的提交行。 參考： https : //spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html

Answer 2

將kafkaStream.asInstanceOf [CanCommitOffsets] .commitAsync（offsetRanges）行更改為rdd.asInstanceOf [CanCommitOffsets] .commitAsync（offsetRanges）

Spark Kafka Streaming多分區CommitAsync問題

問題描述

2 個解決方案

解決方案1
0 2018-03-20 03:58:36

解決方案2
0 2018-03-20 14:45:20

Spark Kafka Streaming多分區CommitAsync問題

問題描述

2 個解決方案

解決方案1 0 2018-03-20 03:58:36

解決方案2 0 2018-03-20 14:45:20

解決方案1
0 2018-03-20 03:58:36

解決方案2
0 2018-03-20 14:45:20