Flink 对单个源使用多个数据类

Question

一些代码：

implicit val formats = Serialization.formats(NoTypeHints)

case class DataClass(id: String, name: String)    

val dataSource = env
      .addSource(new FlinkKinesisConsumer[String](s"data-stream-$stage", new SimpleStringSchema, consumerConfig))
      .uid(s"data-stream-$stage-source-id").name("dataSource")
      .map(json => read[DataClass](json))

在这里，我从 kinesis stream 中获取数据，并对我的数据 class 进行序列化。 一切正常，但现在需要添加以另一种格式接收数据的功能（例如DataClassSecond ）

其中一个选项是添加一个额外的数据源并在您自己的 stream 中处理它们。

但这需要一个额外的运动队列。 而且我不确定这是否是一个好方法是否有任何方法可以从 kinesis 接收不同的数据，然后根据类型拆分 stream？

Answer 1

您可以尝试根据字段filter DataStream[String] ，这样您将获得两个或更多只包含具有正确 JSON 格式的元素的流。

所以最简单的方法是这样的：

val streamDataClass = sourceStream.filter(_.contains("name"))
val streamDataClassSecond = sourceStream.filter(_.contains("surname"))

这仅在name和surname对每个DataClass都是唯一的情况下才有效。 更有效的做法可能是首先map将DataStream转换为某种通用格式，或者使用Either作为反序列化结果，然后检查它是否成功。

Flink 对单个源使用多个数据类

问题描述

1 个解决方案

解决方案1
1 已采纳 2021-03-11 15:10:54

Flink 对单个源使用多个数据类

问题描述

1 个解决方案

解决方案1 1 已采纳 2021-03-11 15:10:54

解决方案1
1 已采纳 2021-03-11 15:10:54