我有一份工作正在与旧的 flink Kafka 消费者 ( FlinkKafkaConsumer ) 一起运行,现在我想将它迁移到KafkaSource 。 但我不确定这次迁移会产生什么影响。 我希望我的工作从旧的 FlinkKafkaConsumer 最新成功的检查点开始,这可能吗? 如果不可能 ...
我有一份工作正在与旧的 flink Kafka 消费者 ( FlinkKafkaConsumer ) 一起运行,现在我想将它迁移到KafkaSource 。 但我不确定这次迁移会产生什么影响。 我希望我的工作从旧的 FlinkKafkaConsumer 最新成功的检查点开始,这可能吗? 如果不可能 ...
在 Spark 中,我们有 MapPartition function,它用于对一组条目进行一些初始化,比如一些 db 操作。 现在我想在 Flink 中做同样的事情。 经过一些研究,我发现我可以使用 RichMap 来实现相同的用途,但它有一个缺点,即该操作只能在流式作业开始时的 open 方法 ...
从官方文档中,它说 Flink 支持minor version upgrade - restoring a snapshot taken with an older minor version of Flink (1.x → 1.y). . Q1。 这是否意味着我可以通过以下方式升级我的工作的 ...
赏金将在 7 天后到期。 此问题的答案有资格获得+50声望赏金。 Rinze想让更多人关注这个问题。 我正在使用 Pyflink 和 Streaming API 将数据同步到文件系统中。 output 文件的路径如下: output 文件路径格式似乎是{year}-{month}-{day} ...
让我们假设我有一个输入 DataStream 并想实现一些需要“内存”的功能,所以我需要 ProcessFunction 让我可以访问 state。是否可以直接对 DataStream 进行操作,或者唯一的方法是通过初始 stream 进行键控并在键控上下文中工作? 我认为一种解决方案是使用硬编码 ...
假设我们有一个 EventTimeSlidingWindow 和一个基于某个水印的 EventTime 触发器。 如果水印生成的频率非常低,比如说每五分钟生成一次,而 window 大小是一分钟,那么当水印进行时,会同时触发五个 window 结果吗? 即,在我的 output stream 中, ...
我正在尝试使用 flink sql 从 kafka 主题读取数据。 我们有一个模式,如果有效负载大小大于 1MB,我们将有效负载上传到 s3,并在 kafka 事件中将一个位置发送到 s3。 我有一个这样的 flink 表 这里的contentJson字段可以是实际的 json,例如 或者它可以是像 ...
我们在 12 个时区拥有约 5 亿司机。 我们会定期发送不同的信息,例如他们的收益报告、新促销、政策变更更新等。 我们希望在最适合他们的时间将这些通信传递给他们。 例如 - 当地时间上午 9 点。 我们希望尽早生成这些通信并将它们发布到 Flink 并安排它们在适当的时间交付。 消息将采用以下格式 ...
我正在创建一个 Flink 应用程序,它从 Kafka 主题中读取字符串,例如“2 5 9”是一个值。 然后用“”分隔符拆分字符串并将其创建 map 到一个元组。 在这种情况下, map function 的结果将是一个 DataStream<Tuple3<Integer,Intege ...
我有一个 stream,其传感器数据从 now() 开始,每秒发出数据,但它们的时间戳增加了 15 分钟。 假设现在是 19:00:00,所以我们有 等。因为我知道延迟数据将随着 x 模拟天数的 BoundedOutOfOrderness 实时到达,也就是 24*(60/15)*x 秒,所以我正在努 ...
我正在尝试创建产品扫描仪的数据 stream 处理,它以以下 Tuple4 的形式生成事件:时间戳(长,以毫秒为单位)、ClientID(int)、ProductID(int)、Quantity(int)。 最后,应该得到一个stream的Tuple3:ClientID(int), Product ...
我有两个数据源——一个 S3 存储桶和一个 postgres 数据库表。 两个来源都具有相同格式的记录,并具有类型为 uuid 的唯一标识符。 S3 存储桶中存在的一些记录不是 postgres 表的一部分,目的是找到那些丢失的记录。 数据是有界的,因为它在 s3 存储桶中按每天进行分区。 读取 ...
我们需要在多个时间窗口的输入 stream 中找到唯一元素的数量。 输入数据 Object 的定义如下 InputData(ele1: Integer,ele2: String,ele3: String) Stream 由 ele1 和 ele2 键入。要求是在过去 1 小时、过去 12 小时和 ...
我们想将 Apache Flink 用于流作业——从一个 Kafka 主题读取并写入另一个。 基础设施将部署到 Kube.netes。 我想在任何 PR 合并到master分支时重新启动作业。 因此,我想知道Flink是否保证重新提交作业会从上次处理的消息开始继续数据stream? 因为最重要的工作 ...
我正在使用 flink v1.13,有 4 个任务管理器(每 16 个 cpu)和 3800 个任务(默认应用程序并行度为 28) 在我的应用程序中,一位操作员的忙碌时间总是很高(大约 %80 - %90)。 如果我重新启动 flink 应用程序,那么繁忙时间会减少,但在运行 5-10 小时后,繁 ...
我正在构建一个 Flink 管道,并且基于实时输入数据需要从 RichFlatMapFunction 中的存档文件中读取记录(例如,我每天都想读取前一天和前一周的文件)。 我想知道最好的方法是什么? 我可以直接使用 Hadoop API,这就是我接下来要尝试的。 那将是这样的:import org. ...
我正在尝试编写一个 Flink 流应用程序,它有一个 KafkaSource 来读取一个主题,该主题具有为其数据定义的 AVRO 模式。 我想知道在这种情况下模式的自动缓存在本地是如何工作的,类似于此处的 Confluent 文档。 基本上,用例是消费者不应该事先知道模式。 实例化消费者后,模式注 ...
我在 Flink 应用程序中使用AvroParquetReader时遇到问题。 (flink>=1.15) Motivaton(也就是我为什么要使用它) 根据官方文档,可以将 Flink 中的 Parquet 文件读取到FileSource中。 但是,我只想编写一个 function 来 ...
我正在尝试通过 RichMapFunction<Row, Row> 解析数据 stream 一行中的嵌套字段。 这个的输入和output是Row类型的。 一行中的嵌套列可以有任意数量的字段。 问题是,我只想在评估 map function 或通过创建 output 行后返回行的类型信息 ...
我使用的是 Apache Flink 1.16.0 版本。 我正在尝试通过将元素打印到控制台来做一个简单的 CEP 出于任何原因,没有任何内容打印到控制台,即使进程以退出代码 0 结束。 这是代码: 有什么线索吗? ...