繁体   English   中英

如何在批处理模式下使用Spark从Kafka主题加载所有记录

[英]How to load all records from kafka topic using spark in batch mode

我想使用spark从kafka主题加载所有记录,但是我看到的所有示例都在使用spark流。 我怎么能只一次从fwom kafka加载消息?

确切的步骤在官方文档中列出,例如:

val df = spark
  .read
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("subscribePattern", "topic.*")
  .option("startingOffsets", "earliest")
  .option("endingOffsets", "latest")
  .load()

但是,如果源是连续流,则“所有记录”的定义会很差,因为结果取决于执行查询时的时间点。

另外,您应记住,并行性受Kafka主题的分区限制,因此必须注意不要使群集不堪重负。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM