繁体 English 中英

阅读Spark批处理作业中的Kafka主题

[英]Read Kafka topic in a Spark batch job

原文 2016-06-25 08:41:33 2 1 scala/ apache-spark/ apache-kafka/ spark-streaming/ kafka-consumer-api

我正在编写一个从Kafka主题读取的Spark（v1.6.0）批处理作业。
为此，我可以使用org.apache.spark.streaming.kafka.KafkaUtils#createRDD ，我需要为所有分区设置偏移量，还需要将它们存储在某个位置（ZK，HDFS？），以了解从何处开始下一批作业。

从批处理作业中读取Kafka的正确方法是什么？

我也在考虑编写流作业，该作业从auto.offset.reset=smallest读取， auto.offset.reset=smallest检查点保存到HDFS，然后在下一次运行中从此开始。

但是在这种情况下，我如何只提取一次并在第一批处理后停止流传输？

1 个解决方案

createRDD是从kafka读取批处理的正确方法。

要查询有关最新/最早可用偏移量的信息，请查看KafkaCluster.scala方法getLatestLeaderOffsets和getEarliestLeaderOffsets 。 该文件是private文件，但应在最新版本的spark中public 。

在 spark 批处理作业中读取 Kafka 消息

[英]Read Kafka messages in spark batch job

在Spark批处理作业中从kafka读取（从OffOffset直到Offset）

[英]Read from kafka in a Spark batch job (fromOffset untilOffset)

如何在Spark Streaming作业的每批中使用不同的Kafka主题？

[英]How to consume from a different Kafka topic in each batch of a Spark Streaming job?

Spark Job 没有向 Kafka 主题发布消息

[英]Spark Job is not posting message to Kafka topic

Kafka + Spark 流：单个作业中的多主题处理

[英]Kafka + spark streaming : Multi topic processing in single job

从 Kafka 主题读取数据并使用 scala 和 spark 写回 Kafka 主题

[英]Read from Kafka topic process the data and write back to Kafka topic using scala and spark

无法使用 spark scala 读取和写入 kafka 主题

[英]Can't Read from and write to kafka topic using spark scala

如何从Spark Streaming开始从Kafka主题中读取记录？

[英]How to read records from Kafka topic from beginning in Spark Streaming?

Spark Streaming - 写入 Kafka 主题

[英]Spark Streaming - write to Kafka topic

从Kafka主题读取时，Spark流作业因阶段故障而中止

[英]Spark streaming Job aborted due to stage failure when reading from kafka topic

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在 spark 批处理作业中读取 Kafka 消息在Spark批处理作业中从kafka读取（从OffOffset直到Offset）如何在Spark Streaming作业的每批中使用不同的Kafka主题？ Spark Job 没有向 Kafka 主题发布消息 Kafka + Spark 流：单个作业中的多主题处理从 Kafka 主题读取数据并使用 scala 和 spark 写回 Kafka 主题无法使用 spark scala 读取和写入 kafka 主题如何从Spark Streaming开始从Kafka主题中读取记录？ Spark Streaming - 写入 Kafka 主题从Kafka主题读取时，Spark流作业因阶段故障而中止

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM