标签[flink-streaming] - 堆栈内存溢出

新的flink Kafka consumer（KafkaSource）能否从旧的FlinkKafkaConsumer的Savepoint/checkpoint开始？ - Can new flink Kafka consumer (KafkaSource) start from the old FlinkKafkaConsumer's Savepoint/checkpoint?

我有一份工作正在与旧的 flink Kafka 消费者 ( FlinkKafkaConsumer ) 一起运行，现在我想将它迁移到KafkaSource 。但我不确定这次迁移会产生什么影响。我希望我的工作从旧的 FlinkKafkaConsumer 最新成功的检查点开始，这可能吗？如果不可能 ...

在 Flink 中使用 RichMap 比如 Scala MapPartition - Use RichMap in Flink like Scala MapPartition

在 Spark 中，我们有 MapPartition function，它用于对一组条目进行一些初始化，比如一些 db 操作。现在我想在 Flink 中做同样的事情。经过一些研究，我发现我可以使用 RichMap 来实现相同的用途，但它有一个缺点，即该操作只能在流式作业开始时的 open 方法 ...

升级 Flink 次要版本并从检查点恢复 - upgrade Flink minor version and restore from checkpoint

从官方文档中，它说 Flink 支持minor version upgrade - restoring a snapshot taken with an older minor version of Flink (1.x → 1.y). . Q1。这是否意味着我可以通过以下方式升级我的工作的 ...

Flink Streaming File Sink 的 output 路径格式可以改吗？ - Can I change the output path format of Flink Streaming File Sink?

赏金将在 7 天后到期。此问题的答案有资格获得+50声望赏金。 Rinze想让更多人关注这个问题。我正在使用 Pyflink 和 Streaming API 将数据同步到文件系统中。 output 文件的路径如下： output 文件路径格式似乎是{year}-{month}-{day} ...

在 Flink 中是否可以将 state 与非键控 stream 一起使用？ - In Flink is it possible to use state with a non keyed stream?

让我们假设我有一个输入 DataStream 并想实现一些需要“内存”的功能，所以我需要 ProcessFunction 让我可以访问 state。是否可以直接对 DataStream 进行操作，或者唯一的方法是通过初始 stream 进行键控并在键控上下文中工作？我认为一种解决方案是使用硬编码 ...

Flink 触发触发多个 windows？ - Flink triggers firing for multiple windows?

假设我们有一个 EventTimeSlidingWindow 和一个基于某个水印的 EventTime 触发器。如果水印生成的频率非常低，比如说每五分钟生成一次，而 window 大小是一分钟，那么当水印进行时，会同时触发五个 window 结果吗？即，在我的 output stream 中， ...

Flink sql api - 如何读取 kafka 事件，该事件又具有 s3 的位置 - Flink sql api - how to read kafka event which in turn has a location to s3

我正在尝试使用 flink sql 从 kafka 主题读取数据。我们有一个模式，如果有效负载大小大于 1MB，我们将有效负载上传到 s3，并在 kafka 事件中将一个位置发送到 s3。我有一个这样的 flink 表这里的contentJson字段可以是实际的 json，例如或者它可以是像 ...

用 Apache Flink 解决 Scheduled Processing - Solving for Scheduled Processing with Apache Flink

我们在 12 个时区拥有约 5 亿司机。我们会定期发送不同的信息，例如他们的收益报告、新促销、政策变更更新等。我们希望在最适合他们的时间将这些通信传递给他们。例如 - 当地时间上午 9 点。我们希望尽早生成这些通信并将它们发布到 Flink 并安排它们在适当的时间交付。消息将采用以下格式 ...

在 Flink 中是否可以有一个 DataStream<tuple> Tuple 是所有已知 Tulple（如 Tuple2、Tuple3 等）的基数 class 在哪里？</tuple> - In Flink is it possible to have a DataStream<Tuple> where Tuple is the base class of all known Tulples like Tuple2, Tuple3 etc?

我正在创建一个 Flink 应用程序，它从 Kafka 主题中读取字符串，例如“2 5 9”是一个值。然后用“”分隔符拆分字符串并将其创建 map 到一个元组。在这种情况下， map function 的结果将是一个 DataStream<Tuple3<Integer,Intege ...

时间戳和水印之间的不同时间缩放 - Different time scaling between timestamps and watermarks

我有一个 stream，其传感器数据从 now() 开始，每秒发出数据，但它们的时间戳增加了 15 分钟。假设现在是 19:00:00，所以我们有等。因为我知道延迟数据将随着 x 模拟天数的 BoundedOutOfOrderness 实时到达，也就是 24*(60/15)*x 秒，所以我正在努 ...

如何根据Apache Flink中的第二个密钥拆分window？ - How to split a window based on a second key in Apache Flink?

我正在尝试创建产品扫描仪的数据 stream 处理，它以以下 Tuple4 的形式生成事件：时间戳（长，以毫秒为单位）、ClientID（int）、ProductID（int）、Quantity（int）。最后，应该得到一个stream的Tuple3：ClientID(int), Product ...

使用 Flink 从 2 个数据源中查找缺失的记录 - Finding missing records from 2 data sources with Flink

我有两个数据源——一个 S3 存储桶和一个 postgres 数据库表。两个来源都具有相同格式的记录，并具有类型为 uuid 的唯一标识符。 S3 存储桶中存在的一些记录不是 postgres 表的一部分，目的是找到那些丢失的记录。数据是有界的，因为它在 s3 存储桶中按每天进行分区。读取 ...

多个时间窗口的唯一计数 - 处理或减少 function 与 ProcessWindowFunction 结合？ - Unique Count for Multiple timewindows - Process or Reduce function combined with ProcessWindowFunction?

我们需要在多个时间窗口的输入 stream 中找到唯一元素的数量。输入数据 Object 的定义如下 InputData(ele1: Integer,ele2: String,ele3: String) Stream 由 ele1 和 ele2 键入。要求是在过去 1 小时、过去 12 小时和 ...

Apache Flink Streaming Job：部署模式 - Apache Flink Streaming Job: deployment patterns

我们想将 Apache Flink 用于流作业——从一个 Kafka 主题读取并写入另一个。基础设施将部署到 Kube.netes。我想在任何 PR 合并到master分支时重新启动作业。因此，我想知道Flink是否保证重新提交作业会从上次处理的消息开始继续数据stream？因为最重要的工作 ...

简单流程的繁忙时间太长 function - Busy time is too high for simple process function

我正在使用 flink v1.13，有 4 个任务管理器（每 16 个 cpu）和 3800 个任务（默认应用程序并行度为 28）在我的应用程序中，一位操作员的忙碌时间总是很高（大约 %80 - %90）。如果我重新启动 flink 应用程序，那么繁忙时间会减少，但在运行 5-10 小时后，繁 ...

Flink FlatMapFunction 读取文件的方法 - How to Read Files in Flink FlatMapFunction

我正在构建一个 Flink 管道，并且基于实时输入数据需要从 RichFlatMapFunction 中的存档文件中读取记录（例如，我每天都想读取前一天和前一周的文件）。我想知道最好的方法是什么？我可以直接使用 Hadoop API，这就是我接下来要尝试的。那将是这样的：import org. ...

FlinkKafkaConsumer / KafkaSource 与 AWS Glue Schema Registry 或 Confluent Schema Registry - FlinkKafkaConsumer / KafkaSource with AWS Glue Schema Registry or Confluent Schema Registry

我正在尝试编写一个 Flink 流应用程序，它有一个 KafkaSource 来读取一个主题，该主题具有为其数据定义的 AVRO 模式。我想知道在这种情况下模式的自动缓存在本地是如何工作的，类似于此处的 Confluent 文档。基本上，用例是消费者不应该事先知道模式。实例化消费者后，模式注 ...

如何在 Flink 应用程序中使用 AvroParquetReader？ - How to use AvroParquetReader inside a Flink application?

我在 Flink 应用程序中使用AvroParquetReader时遇到问题。 (flink>=1.15) Motivaton（也就是我为什么要使用它）根据官方文档，可以将 Flink 中的 Parquet 文件读取到FileSource中。但是，我只想编写一个 function 来 ...

Flink 动态生成 TypeInformation - Flink generate TypeInformation dynamically

我正在尝试通过 RichMapFunction<Row, Row> 解析数据 stream 一行中的嵌套字段。这个的输入和output是Row类型的。一行中的嵌套列可以有任意数量的字段。问题是，我只想在评估 map function 或通过创建 output 行后返回行的类型信息 ...

Apache Flink - 没有打印到 output，即使退出代码为 0 - Apache Flink - Nothing printed to the output, even if the exit code is 0

我使用的是 Apache Flink 1.16.0 版本。我正在尝试通过将元素打印到控制台来做一个简单的 CEP 出于任何原因，没有任何内容打印到控制台，即使进程以退出代码 0 结束。这是代码：有什么线索吗？ ...