![](/img/trans.png)
[英]How to read records from Kafka topic from beginning in Spark Streaming?
[英]How to load all records from kafka topic using spark in batch mode
我想使用spark从kafka主题加载所有记录,但是我看到的所有示例都在使用spark流。 我怎么能只一次从fwom kafka加载消息?
确切的步骤在官方文档中列出,例如:
val df = spark
.read
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("subscribePattern", "topic.*")
.option("startingOffsets", "earliest")
.option("endingOffsets", "latest")
.load()
但是,如果源是连续流,则“所有记录”的定义会很差,因为结果取决于执行查询时的时间点。
另外,您应记住,并行性受Kafka主题的分区限制,因此必须注意不要使群集不堪重负。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.