cost 263 ms
新的flink Kafka consumer(KafkaSource)能否从旧的FlinkKafkaConsumer的Savepoint/checkpoint开始? - Can new flink Kafka consumer (KafkaSource) start from the old FlinkKafkaConsumer's Savepoint/checkpoint?

我有一份工作正在与旧的 flink Kafka 消费者 ( FlinkKafkaConsumer ) 一起运行,现在我想将它迁移到KafkaSource 。 但我不确定这次迁移会产生什么影响。 我希望我的工作从旧的 FlinkKafkaConsumer 最新成功的检查点开始,这可能吗? 如果不可能 ...

在 Flink 中使用 RichMap 比如 Scala MapPartition - Use RichMap in Flink like Scala MapPartition

在 Spark 中,我们有 MapPartition function,它用于对一组条目进行一些初始化,比如一些 db 操作。 现在我想在 Flink 中做同样的事情。 经过一些研究,我发现我可以使用 RichMap 来实现相同的用途,但它有一个缺点,即该操作只能在流式作业开始时的 open 方法 ...

Flink Streaming File Sink 的 output 路径格式可以改吗? - Can I change the output path format of Flink Streaming File Sink?

赏金将在 7 天后到期。 此问题的答案有资格获得+50声望赏金。 Rinze想让更多人关注这个问题。 我正在使用 Pyflink 和 Streaming API 将数据同步到文件系统中。 output 文件的路径如下: output 文件路径格式似乎是{year}-{month}-{day} ...

在 Flink 中是否可以将 state 与非键控 stream 一起使用? - In Flink is it possible to use state with a non keyed stream?

让我们假设我有一个输入 DataStream 并想实现一些需要“内存”的功能,所以我需要 ProcessFunction 让我可以访问 state。是否可以直接对 DataStream 进行操作,或者唯一的方法是通过初始 stream 进行键控并在键控上下文中工作? 我认为一种解决方案是使用硬编码 ...

Flink sql api - 如何读取 kafka 事件,该事件又具有 s3 的位置 - Flink sql api - how to read kafka event which in turn has a location to s3

我正在尝试使用 flink sql 从 kafka 主题读取数据。 我们有一个模式,如果有效负载大小大于 1MB,我们将有效负载上传到 s3,并在 kafka 事件中将一个位置发送到 s3。 我有一个这样的 flink 表 这里的contentJson字段可以是实际的 json,例如 或者它可以是像 ...

用 Apache Flink 解决 Scheduled Processing - Solving for Scheduled Processing with Apache Flink

我们在 12 个时区拥有约 5 亿司机。 我们会定期发送不同的信息,例如他们的收益报告、新促销、政策变更更新等。 我们希望在最适合他们的时间将这些通信传递给他们。 例如 - 当地时间上午 9 点。 我们希望尽早生成这些通信并将它们发布到 Flink 并安排它们在适当的时间交付。 消息将采用以下格式 ...

在 Flink 中是否可以有一个 DataStream<tuple> Tuple 是所有已知 Tulple(如 Tuple2、Tuple3 等)的基数 class 在哪里?</tuple> - In Flink is it possible to have a DataStream<Tuple> where Tuple is the base class of all known Tulples like Tuple2, Tuple3 etc?

我正在创建一个 Flink 应用程序,它从 Kafka 主题中读取字符串,例如“2 5 9”是一个值。 然后用“”分隔符拆分字符串并将其创建 map 到一个元组。 在这种情况下, map function 的结果将是一个 DataStream&lt;Tuple3&lt;Integer,Intege ...

使用 Flink 从 2 个数据源中查找缺失的记录 - Finding missing records from 2 data sources with Flink

我有两个数据源——一个 S3 存储桶和一个 postgres 数据库表。 两个来源都具有相同格式的记录,并具有类型为 uuid 的唯一标识符。 S3 存储桶中存在的一些记录不是 postgres 表的一部分,目的是找到那些丢失的记录。 数据是有界的,因为它在 s3 存储桶中按每天进行分区。 读取 ...

多个时间窗口的唯一计数 - 处理或减少 function 与 ProcessWindowFunction 结合? - Unique Count for Multiple timewindows - Process or Reduce function combined with ProcessWindowFunction?

我们需要在多个时间窗口的输入 stream 中找到唯一元素的数量。 输入数据 Object 的定义如下 InputData(ele1: Integer,ele2: String,ele3: String) Stream 由 ele1 和 ele2 键入。要求是在过去 1 小时、过去 12 小时和 ...

Apache Flink Streaming Job:部署模式 - Apache Flink Streaming Job: deployment patterns

我们想将 Apache Flink 用于流作业——从一个 Kafka 主题读取并写入另一个。 基础设施将部署到 Kube.netes。 我想在任何 PR 合并到master分支时重新启动作业。 因此,我想知道Flink是否保证重新提交作业会从上次处理的消息开始继续数据stream? 因为最重要的工作 ...

简单流程的繁忙时间太长 function - Busy time is too high for simple process function

我正在使用 flink v1.13,有 4 个任务管理器(每 16 个 cpu)和 3800 个任务(默认应用程序并行度为 28) 在我的应用程序中,一位操作员的忙碌时间总是很高(大约 %80 - %90)。 如果我重新启动 flink 应用程序,那么繁忙时间会减少,但在运行 5-10 小时后,繁 ...

Flink FlatMapFunction 读取文件的方法 - How to Read Files in Flink FlatMapFunction

我正在构建一个 Flink 管道,并且基于实时输入数据需要从 RichFlatMapFunction 中的存档文件中读取记录(例如,我每天都想读取前一天和前一周的文件)。 我想知道最好的方法是什么? 我可以直接使用 Hadoop API,这就是我接下来要尝试的。 那将是这样的:import org. ...

FlinkKafkaConsumer / KafkaSource 与 AWS Glue Schema Registry 或 Confluent Schema Registry - FlinkKafkaConsumer / KafkaSource with AWS Glue Schema Registry or Confluent Schema Registry

我正在尝试编写一个 Flink 流应用程序,它有一个 KafkaSource 来读取一个主题,该主题具有为其数据定义的 AVRO 模式。 我想知道在这种情况下模式的自动缓存在本地是如何工作的,类似于此处的 Confluent 文档。 基本上,用例是消费者不应该事先知道模式。 实例化消费者后,模式注 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM