标签[apache-beam-kafkaio] - 堆栈内存溢出

Apache Beam KafkaIO Reader & Writer - 错误处理和重试机制 - Apache Beam KafkaIO Reader & Writer - Error handling and Retry mechanism

我正在研究基于 Apache Beam Pipeline 的实现，我使用来自 Kafka stream 的数据。进行一些处理后，我需要将处理后的数据发布到三个不同的 Kafka 主题中。作为跑步者，我使用 Apache Flink。我的问题是，如何处理KafkaIO reader和writer中 ...

Apache Beam KafkaIO - 写入多个主题 - Apache Beam KafkaIO - Write to Multiple Topics

目前，我正在研究 Apache Beam Pipeline 实现，它使用来自三个不同 Kafka 主题的数据，经过一些处理，我创建了三种类型的对象，添加了从上述 Kafka 主题中获取的数据。最后，需要将这三个对象发布到三个不同的 Kafka 主题中。可以使用withTopics中的KafkaI ...

Apache Beam Pipeline KafkaIO - 手动提交偏移量 - Apache Beam Pipeline KafkaIO - Commit offeset manully

我有一个光束管道来消耗具有多个阶段（PTransforms）的流事件来处理它们。看下面的代码，使用KafkaIO和StreamReader.read()方法实现读取的流事件是这样的，通过 KafkaIO 读取流式事件/消息后，我们可以提交偏移量。我需要做的是手动提交偏移量，当所有先前的 PT ...

在 Flink 运行器上通过 KafkaIO 消费事件时，Apache Beam Pipeline 失败 - Failing Apache Beam Pipeline when consuming events through KafkaIO on Flink runner

我有一个带有多个阶段的光束管道，它通过 KafkaIO 消耗数据，代码如下所示， StreamReader.read()方法实现，在Direct Runner上运行管道时，它运行时不会引发任何错误。但就我而言，我必须使用Flink Runner并且当管道在Flink Runner上运行时，它会 ...

如何通过 Apache Beam 使用来自 AWS MSK 的 Avro 序列化消息 - How to consume Avro Serialized messages from AWS MSK via Apache Beam

当我以上述格式创建 kafkaIO 时，我能够以下面提到的方式获取数据。但我需要将 byte[] 反序列化为从 AVRO 模式生成的 Pojo class 。当我尝试将它用于 withValueDeserializer() 时，我遇到了错误。有没有具体的方法来做到这一点。我还创建了一个自定 ...

Apache Beam WriteToKafka（python SDK）不写入主题（没有错误清单） - Apache Beam WriteToKafka (python SDK) doesn't write to topic (no manifest of error)

我正在尝试使用 apache Beam（python SDK）的 WriteToKafka 类将流写入 Kafka 主题。但是，它会无休止地运行脚本（没有错误）并且不会将流写入主题。我必须取消运行，它不会停止，也不会出错。任何帮助表示赞赏。您可以在下面找到重现问题的最小示例 from typ ...

如何在 python 中使用 KafkaIO Beam 公开 Kafka 指标？ - How to expose Kafka metrics using KafkaIO Beam in python?

希望能够在使用 KafkaIO 库的 python 编写的 Beam 管道中公开我的消费者和生产者指标。我指的指标示例是您从 python confluent-kafka库中获得的指标 - 字节消耗率获取延迟平均记录滞后提交率消费滞后 ...

如何在 Apache Beam 中的 FileIO 之后手动提交 kafka 偏移量？ - How to manually commit kafka offset after FileIO in apache beam?

我有一个FileIO将Pcollection<GenericRecord>写入文件并返回WriteFilesResult<DestinationT> 。我想在写入文件以将写入记录的偏移量提交给 kafka 后创建一个DoFn ，但由于我的偏移量存储在我的 GenericR ...

Apache Beam ReadFromKafka vs KafkaConsume - Apache Beam ReadFromKafka vs KafkaConsume

我正在使用一个简单的 Apache Beam 管道，该管道包括从无限制的 Kafka 主题中读取数据并将值打印出来。我有两种口味。这是通过 Flink Runner 完成的。版本 1 with beam.Pipeline(options=beam_options) as p: ...

如何在 Apache Beam 中读取 Kafka 记录摄取时间戳 - How to read Kafka record ingestion timestamp in Apache Beam

我是 Apache Beam 的新手，并且在这个问题上苦苦挣扎了一段时间。我在 Apache Beam Java 中使用 KafkaIO 作为我的管道的来源。我想获取 Kafka 记录摄取时间戳以及每条记录，并将其作为附加列写入我的 output。记录在 Kafka 中摄取的时间戳，而不是活动时间 ...

Apache 使用 Kafka 时 Spark Runner 的光束问题 IO - Apache Beam Issue with Spark Runner while using Kafka IO

我正在尝试使用 Spark Runner 测试 KafkaIO 的 Apache Beam 代码。该代码适用于 Direct Runner。但是，如果我在下面添加代码行，则会引发错误：错误：我尝试使用的版本： ...

如何在从 Kafka 源读取 Apache Beam 中模拟事件延迟 - How can I simulate event lateness in Apache Beam reading from a Kafka Source

我正在尝试在流式 Beam 管道中调整我的窗口参数。我正在修改的参数是 withAllowedLateness、触发器、间隔、窗格触发等。但是我不知道如何在我的 Kafka 消费管道中触发延迟来测试更改。有人可以建议如何创建活动迟到吗？谢谢 ...

GroupByKey() 与 Apache Beam - GroupByKey() with Apache Beam

我正在尝试使用 apache beam 将消息从 kafka 消费者传输到 30 秒的窗口。使用 beam_nuggets.io 读取 kafka 主题。你可以在下面看到我的代码： GroupByKey 仍然不产生任何输出。我的消费消息： GroupByKey() 可以这样做， ...

如何在 Apache BEAM 中将 withDynamicRead 与 KafkaIO 一起使用 - how to use withDynamicRead with KafkaIO in Apache BEAM

我在 Apache Beam 中使用 KafkaIO 读取，我正在尝试调用withDynamicRead 。我也有一个基本的 withCheckStopReadingFn 调用：我收到此错误，我无法理解。有人知道如何正确调用 DynamicRead 吗？我使用的是 Apache Beam ...

GRPC 错误 Docker Mac - 使用 Python、Beam 和 Flink 进行 Kafka 流处理 - GRPC Error Docker Mac - Kafka Stream Processing with Python, Beam, and Flink

更新：我启动了一个 EC2 实例，并且能够使下面的示例工作，这证实这是 Mac 上 Docker 的连接问题。更新：即使我关闭了 Flink Server Container 和 Kafka，我仍然面临这个错误，这导致我相信这是一个连接问题我最近尝试使用教程教程使用 Python、Apache ...

Beam Kafka 流输入，无输出打印或文本 - Beam Kafka Streaming Input, No Output to print or text

我正在尝试使用直接运行器来计算 kafka 消息密钥。如果我将 max_num_records =20 放在 ReadFromKafka 中，我可以看到打印或输出到文本的结果。喜欢：但是如果没有 max_num_records，或者 max_num_records 大于 kafka 主题 ...

GCP 数据流 Kafka（作为 Azure 事件中心）-> 大查询 - GCP Dataflow Kafka (as Azure Event Hub) -> Big Query

TDLR; 我有一个启用 Kafka 的 Azure 事件中心，我正在尝试从 Google Cloud 的数据流服务连接到 stream 数据到 Google Big Query。我可以成功地使用 Kafka CLI 与 Azure 事件中心对话。但是，使用 GCP，5 分钟后，我在 GCP ...

KafkaIO - 与 groupId 一起使用时 enable.auto.commit 设置为 true 和 commitOffsetsInFinalize 的不同行为 - KafkaIO - Different behaviors for enable.auto.commit set to true and commitOffsetsInFinalize when used with groupId

我们有一个 Apache Beam 管道，它正在读取来自给定 kafka 主题的消息并进行进一步处理。我的管道使用 FlinkRunner，我描述了我们尝试过的三种不同情况：案例 1：未指定组 ID： Beam 为每次运行创建一个新的消费者，从而从最新的主题偏移中读取。它读取消费者启动后产生 ...

Apache 光束 HTTP 无界源 Python - Apache Beam HTTP Unbounded Source Python

是否可以使用当前版本的 Apache Beam 开发一个无界源来接收 HTTP 消息中的数据？我的意图是运行 HTTP 服务器并将收到的消息注入 Beam 管道。如果可能的话，可以用现有的资源来完成吗？ ...

Apache Beam，KafkaIO 至少一次语义 - Apache Beam, KafkaIO at least once semantics

我们正在实施一个从 Kafka 读取并写入 BigQuery 的试点。简单的管道： KafkaIO.read BigQueryIO.write 我们关闭了自动提交。我们正在使用commitOffsetsInFinalize() 如果 BigQueryIO 端一切正常，此设置能否保证消息在 B ...