繁体   English   中英

Kafka 中的 Spark Offset 管理

[英]Spark Offset Management in Kafka

我正在使用 Spark Structured Streaming(版本 2.3.2)。 我需要从 Kafka Cluster 读取并写入 Kerberized Kafka。 这里我想在记录写入 Kerberized Kafka 后使用 Kafka 作为偏移检查点。

问题:

  1. 我们可以使用 Kafka 检查点来管理偏移量还是只需要使用 HDFS/S3?

请帮忙。

我们可以使用 Kafka 检查点来管理偏移量吗

不,您不能将偏移量提交回源 Kafka 主题。 这在此处有详细描述,当然在官方Spark Structured Streaming + Kafka 集成指南中也有详细描述。

还是我们只需要使用 HDFS/S3?

是的,这必须类似于 HDFS 或 S3。 这在 StructuredStreaming 编程指南的检查点故障恢复部分中进行了解释:“此检查点位置必须是HDFS 兼容文件系统中的路径,并且可以在启动查询时设置为 DataStreamWriter 中的一个选项。”

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM