如何使用Core spark从Kafka读取消息进行批处理

Question

我可以在没有 Spark Streaming 的情况下从 Kafka 读取消息吗？ 我的意思是仅将 Spark Core 库用于批处理目的。 如果是的话，你可以展示一些例子如何做到这一点。 我使用的是 HDP 2.4、Kafka 0.9 和 Spark 1.6。

Answer 1

KafkaUtils Streaming kafka api中有一个叫做KafkaUtils的类。

https://github.com/apache/spark/blob/master/external/kafka-0-8/src/main/scala/org/apache/spark/streaming/kafka/KafkaUtils.scala

在这个类中，您可以使用createRDD方法，该方法基本上期望偏移，并且仅对非流应用程序有用。

依赖jar：

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka_2.10</artifactId>
    <version>1.6.0</version>
</dependency>

另外，检查Kafka Connect，例如您想读取Kafka主题数据并将数据填充到HDFS中，使用Kafka Connect非常简单。

http://docs.confluent.io/3.0.0/connect/ http://www.confluent.io/product/connectors/

如何使用Core spark从Kafka读取消息进行批处理

问题描述

1 个解决方案

解决方案1
1 2016-10-13 17:10:11

如何使用Core spark从Kafka读取消息进行批处理

问题描述

1 个解决方案

解决方案1 1 2016-10-13 17:10:11

解决方案1
1 2016-10-13 17:10:11