繁体   English   中英

Apache Beam与数据流运行器中的聚合器

[英]Aggregators in Apache beam with dataflow runner

我正在尝试创建聚合器以对所有输入数据中满足条件的值进行计数。 我查看了文档,发现以下内容可供创建。

https://cloud.google.com/dataflow/java-sdk/JavaDoc/com/google/cloud/dataflow/sdk/transforms/Aggregator

我正在使用:google-cloud-dataflow-java-sdk-all-2.4.0(基于Apache Beam)

但是,我无法在新的Beam api中找到相应的类。我查看了org.apache.beam.sdk.transforms包。

您能否让我知道如何在新api中将聚合器与dataflowRunner一起使用?

您拥有的链接适用于旧的SDK(1.x)。

在SDK 2.x中,您应该参考apache-beam SDK。 对于您提到的Aggregators ,如果我理解正确,它用于在处理期间添加计数器。 我猜对应的应该是org.apache.beam.sdk.metrics

包org.apache.beam.sdk.metrics度量标准允许导出有关管道执行的信息。

org.apache.beam.sdk.metrics.Counter接口:

报告单个long值并且可以递增或递减的度量标准。

到目前为止,Apache Beam SDK 2.X中的Aggregator类似乎没有替代品。 计算符合条件的值的另一种方法是Transforms 通过使用GroupBy变换收集满足条件的数据,然后使用Combine变换,您可以获得与条件相关的输入数据计数。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM