繁体   English   中英

使用 Nifi 从多个来源读取,在 Kafka 中分组主题并使用 Spark 订阅

[英]Read from multiple sources using Nifi, group topics in Kafka and subscribe with Spark

我们使用 Apache Nifi 从 Twitter 和 Reddit 等多个来源获取特定时间间隔(例如 30 秒)的数据。 然后我们想将它发送到 Apache Kafka 并且可能它应该以某种方式将 Twitter 和 Reddit 消息分组到 1 个主题中,这样 Spark 将始终在给定的时间间隔内从两个源接收数据。

有没有办法做到这一点?

在此处输入图像描述

@Sebastian 您所描述的是基本的 NiFI 路由。 您只需将 Twitter 和 Redis 路由到相同的下游 Kafka 生产者和相同的主题。 从每个服务获取数据到 NiFi 后,您应该将其运行到 UpdateAttribute 并将属性 topicName 设置为您想要的每个源。 如果每个数据源有其他步骤,请在更新属性之后和 PublishKafka 之前执行。

如果您对所有上游路由进行编码,则可以使用 ${topicName} 动态地将所有不同的数据源路由到 PublishKafka 处理器。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM