繁体 English 中英

如何在Spark本身中使用Kafka在Spark流中实现偏移管理？

[英]How do I implement offset management in Spark streaming with Kafka inside Spark itself?

原文 2019-07-05 12:28:53 0 1 java/ apache-kafka/ spark-streaming

我必须在Spark中为从Kafka流读取的Java中的流作业实现偏移管理。 但是，尽管此过程已在此处的官方文档中进行了描述，但实际上并没有提供如何实际存储和检索检查点偏移量的代码示例。 相反，它暗暗地说

如果启用Spark检查点，则偏移量将存储在检查点中。

这是否意味着如果我仅将检查点目录提供给Spark上下文，它将自动存储偏移量？ 当应用程序重新启动时，如何检索最后读取的偏移量呢？ 在此处链接的有关检查点的详细信息页面也将所有内容留给了读者，仅提供了设置检查点目的地的语法。

这样，这为如何使用检查点提供了一些线索，但是在所有情况下，我都可以发现它们已用于累积计算内容而不存储偏移量。 这个问题接近，但仍未描述。

请帮助我实现这一目标。

将偏移量保存在检查点中对您不起作用，因为spark会将任务保存在检查点中，因此代码的升级要求删除检查点。 相反，您可以将偏移量保存在Zookeeper，Kafka，文件系统或任何数据库中。

[英]Kafka Spark-Streaming offset issue

[英]How to implement custom deserializer for Kafka stream using Spark structured streaming?

[英]How do I determine an offset in Apache Spark?

[英]Spark streaming job stuck if some Kafka nodes time offset is not synchronized

[英]Spark Kafka Streaming Issue

[英]Kafka Spark Streaming cache

[英]Kafka consumer in Spark Streaming

[英]Spark Streaming Kafka Consumer

[英]How to Implement Spark Streaming Output with Sockets

[英]Spark structured streaming state management

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Kafka Spark-Streaming偏移问题如何使用Spark结构化流为Kafka流实现自定义反序列化器？如何确定Apache Spark中的偏移量？如果某些Kafka节点时间偏移未同步，则Spark流式传输作业会停止 Spark Kafka Streaming Issue Kafka Spark流式缓存 Spark Streaming 中的 Kafka 消费者 Spark Streaming Kafka Consumer 如何使用套接字实现Spark Streaming输出 Spark结构化的流状态管理

相关标签