简体繁体 English

阅读Spark批处理作业中的Kafka主题

[英]Read Kafka topic in a Spark batch job

原文 2016-06-25 08:41:33 0 1 scala/ apache-spark/ apache-kafka/ spark-streaming/ kafka-consumer-api

I'm writing a Spark (v1.6.0) batch job which reads from a Kafka topic. 我正在编写一个从Kafka主题读取的Spark（v1.6.0）批处理作业。
For this I can use org.apache.spark.streaming.kafka.KafkaUtils#createRDD however, I need to set the offsets for all the partitions and also need to store them somewhere (ZK? HDFS?) to know from where to start the next batch job. 为此，我可以使用org.apache.spark.streaming.kafka.KafkaUtils#createRDD ，我需要为所有分区设置偏移量，还需要将它们存储在某个位置（ZK，HDFS？），以了解从何处开始下一批作业。

What is the right approach to read from Kafka in a batch job? 从批处理作业中读取Kafka的正确方法是什么？

I'm also thinking about writing a streaming job instead, which reads from auto.offset.reset=smallest and saves the checkpoint to HDFS and then in the next run it starts from that. 我也在考虑编写流作业，该作业从auto.offset.reset=smallest读取， auto.offset.reset=smallest检查点保存到HDFS，然后在下一次运行中从此开始。

But in this case how can I just fetch once and stop streaming after the first batch ? 但是在这种情况下，我如何只提取一次并在第一批处理后停止流传输？

1 个解决方案

createRDD is the right approach for reading a batch from kafka. createRDD是从kafka读取批处理的正确方法。

To query for info about the latest / earliest available offsets, look at KafkaCluster.scala methods getLatestLeaderOffsets and getEarliestLeaderOffsets . 要查询有关最新/最早可用偏移量的信息，请查看KafkaCluster.scala方法getLatestLeaderOffsets和getEarliestLeaderOffsets 。 That file was private , but should be public in the latest versions of spark. 该文件是private文件，但应在最新版本的spark中public 。

在 spark 批处理作业中读取 Kafka 消息 - Read Kafka messages in spark batch job

在Spark批处理作业中从kafka读取（从OffOffset直到Offset） - Read from kafka in a Spark batch job (fromOffset untilOffset)

如何在Spark Streaming作业的每批中使用不同的Kafka主题？ - How to consume from a different Kafka topic in each batch of a Spark Streaming job?

Spark Job 没有向 Kafka 主题发布消息 - Spark Job is not posting message to Kafka topic

Kafka + Spark 流：单个作业中的多主题处理 - Kafka + spark streaming : Multi topic processing in single job

从 Kafka 主题读取数据并使用 scala 和 spark 写回 Kafka 主题 - Read from Kafka topic process the data and write back to Kafka topic using scala and spark

无法使用 spark scala 读取和写入 kafka 主题 - Can't Read from and write to kafka topic using spark scala

如何从Spark Streaming开始从Kafka主题中读取记录？ - How to read records from Kafka topic from beginning in Spark Streaming?

Spark Streaming - 写入 Kafka 主题 - Spark Streaming - write to Kafka topic

从Kafka主题读取时，Spark流作业因阶段故障而中止 - Spark streaming Job aborted due to stage failure when reading from kafka topic

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在 spark 批处理作业中读取 Kafka 消息 - Read Kafka messages in spark batch job 在Spark批处理作业中从kafka读取（从OffOffset直到Offset） - Read from kafka in a Spark batch job (fromOffset untilOffset) 如何在Spark Streaming作业的每批中使用不同的Kafka主题？ - How to consume from a different Kafka topic in each batch of a Spark Streaming job? Spark Job 没有向 Kafka 主题发布消息 - Spark Job is not posting message to Kafka topic Kafka + Spark 流：单个作业中的多主题处理 - Kafka + spark streaming : Multi topic processing in single job 从 Kafka 主题读取数据并使用 scala 和 spark 写回 Kafka 主题 - Read from Kafka topic process the data and write back to Kafka topic using scala and spark 无法使用 spark scala 读取和写入 kafka 主题 - Can't Read from and write to kafka topic using spark scala 如何从Spark Streaming开始从Kafka主题中读取记录？ - How to read records from Kafka topic from beginning in Spark Streaming? Spark Streaming - 写入 Kafka 主题 - Spark Streaming - write to Kafka topic 从Kafka主题读取时，Spark流作业因阶段故障而中止 - Spark streaming Job aborted due to stage failure when reading from kafka topic

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM