我正在研究基于 Apache Beam Pipeline 的实现,我使用来自 Kafka stream 的数据。进行一些处理后,我需要将处理后的数据发布到三个不同的 Kafka 主题中。 作为跑步者,我使用 Apache Flink。 我的问题是,如何处理KafkaIO reader和writer中 ...
我正在研究基于 Apache Beam Pipeline 的实现,我使用来自 Kafka stream 的数据。进行一些处理后,我需要将处理后的数据发布到三个不同的 Kafka 主题中。 作为跑步者,我使用 Apache Flink。 我的问题是,如何处理KafkaIO reader和writer中 ...
目前,我正在研究 Apache Beam Pipeline 实现,它使用来自三个不同 Kafka 主题的数据,经过一些处理,我创建了三种类型的对象,添加了从上述 Kafka 主题中获取的数据。 最后,需要将这三个对象发布到三个不同的 Kafka 主题中。 可以使用withTopics中的KafkaI ...
我有一个光束管道来消耗具有多个阶段(PTransforms)的流事件来处理它们。 看下面的代码, 使用KafkaIO和StreamReader.read()方法实现读取的流事件是这样的, 通过 KafkaIO 读取流式事件/消息后,我们可以提交偏移量。 我需要做的是手动提交偏移量,当所有先前的 PT ...
我有一个带有多个阶段的光束管道,它通过 KafkaIO 消耗数据,代码如下所示, StreamReader.read()方法实现, 在Direct Runner上运行管道时,它运行时不会引发任何错误。 但就我而言,我必须使用Flink Runner并且当管道在Flink Runner上运行时,它会 ...
当我以上述格式创建 kafkaIO 时,我能够以下面提到的方式获取数据。 但我需要将 byte[] 反序列化为从 AVRO 模式生成的 Pojo class 。 当我尝试将它用于 withValueDeserializer() 时,我遇到了错误。 有没有具体的方法来做到这一点。 我还创建了一个自定 ...
我正在尝试使用 apache Beam(python SDK)的 WriteToKafka 类将流写入 Kafka 主题。 但是,它会无休止地运行脚本(没有错误)并且不会将流写入主题。 我必须取消运行,它不会停止,也不会出错。 任何帮助表示赞赏。 您可以在下面找到重现问题的最小示例 from typ ...
希望能够在使用 KafkaIO 库的 python 编写的 Beam 管道中公开我的消费者和生产者指标。 我指的指标示例是您从 python confluent-kafka库中获得的指标 - 字节消耗率 获取延迟平均 记录滞后 提交率 消费滞后 ...
我有一个FileIO将Pcollection<GenericRecord>写入文件并返回WriteFilesResult<DestinationT> 。 我想在写入文件以将写入记录的偏移量提交给 kafka 后创建一个DoFn ,但由于我的偏移量存储在我的 GenericR ...
我正在使用一个简单的 Apache Beam 管道,该管道包括从无限制的 Kafka 主题中读取数据并将值打印出来。 我有两种口味。 这是通过 Flink Runner 完成的。 版本 1 with beam.Pipeline(options=beam_options) as p: ...
我是 Apache Beam 的新手,并且在这个问题上苦苦挣扎了一段时间。 我在 Apache Beam Java 中使用 KafkaIO 作为我的管道的来源。我想获取 Kafka 记录摄取时间戳以及每条记录,并将其作为附加列写入我的 output。记录在 Kafka 中摄取的时间戳,而不是活动时间 ...
我正在尝试使用 Spark Runner 测试 KafkaIO 的 Apache Beam 代码。 该代码适用于 Direct Runner。 但是,如果我在下面添加代码行,则会引发错误: 错误: 我尝试使用的版本: ...
我正在尝试在流式 Beam 管道中调整我的窗口参数。 我正在修改的参数是 withAllowedLateness、触发器、间隔、窗格触发等。但是我不知道如何在我的 Kafka 消费管道中触发延迟来测试更改。 有人可以建议如何创建活动迟到吗? 谢谢 ...
我正在尝试使用 apache beam 将消息从 kafka 消费者传输到 30 秒的窗口。 使用 beam_nuggets.io 读取 kafka 主题。 你可以在下面看到我的代码: GroupByKey 仍然不产生任何输出。 我的消费消息: GroupByKey() 可以这样做, ...
我在 Apache Beam 中使用 KafkaIO 读取,我正在尝试调用withDynamicRead 。 我也有一个基本的 withCheckStopReadingFn 调用: 我收到此错误,我无法理解。 有人知道如何正确调用 DynamicRead 吗? 我使用的是 Apache Beam ...
更新:我启动了一个 EC2 实例,并且能够使下面的示例工作,这证实这是 Mac 上 Docker 的连接问题。 更新:即使我关闭了 Flink Server Container 和 Kafka,我仍然面临这个错误,这导致我相信这是一个连接问题 我最近尝试使用教程教程使用 Python、Apache ...
我正在尝试使用直接运行器来计算 kafka 消息密钥。 如果我将 max_num_records =20 放在 ReadFromKafka 中,我可以看到打印或输出到文本的结果。 喜欢: 但是如果没有 max_num_records,或者 max_num_records 大于 kafka 主题 ...
TDLR; 我有一个启用 Kafka 的 Azure 事件中心,我正在尝试从 Google Cloud 的数据流服务连接到 stream 数据到 Google Big Query。 我可以成功地使用 Kafka CLI 与 Azure 事件中心对话。 但是,使用 GCP,5 分钟后,我在 GCP ...
我们有一个 Apache Beam 管道,它正在读取来自给定 kafka 主题的消息并进行进一步处理。 我的管道使用 FlinkRunner,我描述了我们尝试过的三种不同情况: 案例 1:未指定组 ID: Beam 为每次运行创建一个新的消费者,从而从最新的主题偏移中读取。 它读取消费者启动后产生 ...
是否可以使用当前版本的 Apache Beam 开发一个无界源来接收 HTTP 消息中的数据? 我的意图是运行 HTTP 服务器并将收到的消息注入 Beam 管道。 如果可能的话,可以用现有的资源来完成吗? ...
我们正在实施一个从 Kafka 读取并写入 BigQuery 的试点。 简单的管道: KafkaIO.read BigQueryIO.write 我们关闭了自动提交。 我们正在使用commitOffsetsInFinalize() 如果 BigQueryIO 端一切正常,此设置能否保证消息在 B ...