cost 287 ms
Apache Beam KafkaIO Reader & Writer - 错误处理和重试机制 - Apache Beam KafkaIO Reader & Writer - Error handling and Retry mechanism

我正在研究基于 Apache Beam Pipeline 的实现,我使用来自 Kafka stream 的数据。进行一些处理后,我需要将处理后的数据发布到三个不同的 Kafka 主题中。 作为跑步者,我使用 Apache Flink。 我的问题是,如何处理KafkaIO reader和writer中 ...

Apache Beam KafkaIO - 写入多个主题 - Apache Beam KafkaIO - Write to Multiple Topics

目前,我正在研究 Apache Beam Pipeline 实现,它使用来自三个不同 Kafka 主题的数据,经过一些处理,我创建了三种类型的对象,添加了从上述 Kafka 主题中获取的数据。 最后,需要将这三个对象发布到三个不同的 Kafka 主题中。 可以使用withTopics中的KafkaI ...

Apache Beam Pipeline KafkaIO - 手动提交偏移量 - Apache Beam Pipeline KafkaIO - Commit offeset manully

我有一个光束管道来消耗具有多个阶段(PTransforms)的流事件来处理它们。 看下面的代码, 使用KafkaIO和StreamReader.read()方法实现读取的流事件是这样的, 通过 KafkaIO 读取流式事件/消息后,我们可以提交偏移量。 我需要做的是手动提交偏移量,当所有先前的 PT ...

在 Flink 运行器上通过 KafkaIO 消费事件时,Apache Beam Pipeline 失败 - Failing Apache Beam Pipeline when consuming events through KafkaIO on Flink runner

我有一个带有多个阶段的光束管道,它通过 KafkaIO 消耗数据,代码如下所示, StreamReader.read()方法实现, 在Direct Runner上运行管道时,它运行时不会引发任何错误。 但就我而言,我必须使用Flink Runner并且当管道在Flink Runner上运行时,它会 ...

如何通过 Apache Beam 使用来自 AWS MSK 的 Avro 序列化消息 - How to consume Avro Serialized messages from AWS MSK via Apache Beam

当我以上述格式创建 kafkaIO 时,我能够以下面提到的方式获取数据。 但我需要将 byte[] 反序列化为从 AVRO 模式生成的 Pojo class 。 当我尝试将它用于 withValueDeserializer() 时,我遇到了错误。 有没有具体的方法来做到这一点。 我还创建了一个自定 ...

Apache Beam WriteToKafka(python SDK)不写入主题(没有错误清单) - Apache Beam WriteToKafka (python SDK) doesn't write to topic (no manifest of error)

我正在尝试使用 apache Beam(python SDK)的 WriteToKafka 类将流写入 Kafka 主题。 但是,它会无休止地运行脚本(没有错误)并且不会将流写入主题。 我必须取消运行,它不会停止,也不会出错。 任何帮助表示赞赏。 您可以在下面找到重现问题的最小示例 from typ ...

如何在 Apache Beam 中的 FileIO 之后手动提交 kafka 偏移量? - How to manually commit kafka offset after FileIO in apache beam?

我有一个FileIO将Pcollection<GenericRecord>写入文件并返回WriteFilesResult<DestinationT> 。 我想在写入文件以将写入记录的偏移量提交给 kafka 后创建一个DoFn ,但由于我的偏移量存储在我的 GenericR ...

如何在 Apache Beam 中读取 Kafka 记录摄取时间戳 - How to read Kafka record ingestion timestamp in Apache Beam

我是 Apache Beam 的新手,并且在这个问题上苦苦挣扎了一段时间。 我在 Apache Beam Java 中使用 KafkaIO 作为我的管道的来源。我想获取 Kafka 记录摄取时间戳以及每条记录,并将其作为附加列写入我的 output。记录在 Kafka 中摄取的时间戳,而不是活动时间 ...

如何在从 Kafka 源读取 Apache Beam 中模拟事件延迟 - How can I simulate event lateness in Apache Beam reading from a Kafka Source

我正在尝试在流式 Beam 管道中调整我的窗口参数。 我正在修改的参数是 withAllowedLateness、触发器、间隔、窗格触发等。但是我不知道如何在我的 Kafka 消费管道中触发延迟来测试更改。 有人可以建议如何创建活动迟到吗? 谢谢 ...

GRPC 错误 Docker Mac - 使用 Python、Beam 和 Flink 进行 Kafka 流处理 - GRPC Error Docker Mac - Kafka Stream Processing with Python, Beam, and Flink

更新:我启动了一个 EC2 实例,并且能够使下面的示例工作,这证实这是 Mac 上 Docker 的连接问题。 更新:即使我关闭了 Flink Server Container 和 Kafka,我仍然面临这个错误,这导致我相信这是一个连接问题 我最近尝试使用教程教程使用 Python、Apache ...

GCP 数据流 Kafka(作为 Azure 事件中心)-> 大查询 - GCP Dataflow Kafka (as Azure Event Hub) -> Big Query

TDLR; 我有一个启用 Kafka 的 Azure 事件中心,我正在尝试从 Google Cloud 的数据流服务连接到 stream 数据到 Google Big Query。 我可以成功地使用 Kafka CLI 与 Azure 事件中心对话。 但是,使用 GCP,5 分钟后,我在 GCP ...

KafkaIO - 与 groupId 一起使用时 enable.auto.commit 设置为 true 和 commitOffsetsInFinalize 的不同行为 - KafkaIO - Different behaviors for enable.auto.commit set to true and commitOffsetsInFinalize when used with groupId

我们有一个 Apache Beam 管道,它正在读取来自给定 kafka 主题的消息并进行进一步处理。 我的管道使用 FlinkRunner,我描述了我们尝试过的三种不同情况: 案例 1:未指定组 ID: Beam 为每次运行创建一个新的消费者,从而从最新的主题偏移中读取。 它读取消费者启动后产生 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM