繁体   English   中英

如何在Kafka流中高效处理主题TB数据

[英]How to process topic TBs of data in an efficient way in kafka streams

我有一个与kafka有关的简单问题。 我希望我能在这里得到一些好的答案。

我有一个Kafka Streams应用程序,在其中我想解决一个简单的场景,在该场景中我想维护状态存储以查询和存储数据。 主题包含我要处理的TB数据。 我想创建一个状态存储,其键值不同于主题键和值。 基本上,存储键将是主题值字段的一部分,而值将是其他内容。 因此,为此目的,我必须从kafka主题中读取数据并反序列化值,并获取部分数据,这将是存储的关键。

我的问题:

1)如果主题具有TB的数据,那么最好的方法是实现此任务,因为处理主题中的每个记录可能会花费太多。

2)哪种拓扑(DSL,处理器API,两者的混合)最适合这种情况以及原因。

根据您的问题,@ Parkash是一个大致概念,您可以使用(请编辑您的问题或提供一些示例以获取更具体的答案)

  1. 不管源主题中的数据量如何,如果主题已适当划分,您都应该能够并行读取。 请在此处参考流线程模型https://kafka.apache.org/23/documentation/streams/architecture#streams_architecture_threads

  2. 您将需要读取所有键值对,但在任何无状态操作中都看不到实现选项(从您的问题来看,您似乎仅尝试执行无状态操作),所以我想您需要使用用于建立状态存储的处理器API。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM