如何从 Apache Beam 的 Pcollection 中获取一个元素

Question

考虑 Pcollection 列表：

[{'id':'1','name':'Tom','country':'USA'},{'id':'2','name':'Oprah','country':'USA '}....]

我想统计每个国家出现的次数。 结果应该是这样的：

{'美国'：2，'突尼斯'：3，'法国'：1}

Answer 1

检查beam.combiners.ToDict ，结果产生一个字典；

例子：

import apache_beam as beam
from apache_beam.options.pipeline_options import PipelineOptions

p = beam.Pipeline(options=PipelineOptions()) 

(p  
| "create pcoll" >> beam.Create([{'id':'1','name':'Tom','country':'USA'},
                                                {'id':'2','name':'Oprah','country':'USA'},
                                                {'id':'2','name':'Oprah','country':'Italy'}])
| "map" >> beam.Map(lambda x: (x['country']))
| "count" >> beam.combiners.Count.PerElement()
| "toDict" >> beam.combiners.ToDict()
| "print" >> beam.Map(print)
) 

p.run()

# Result {'USA': 2, 'Italy': 1}

Answer 2

这类似于字数统计示例。 您可以在此处找到 Python 中的实现 - https://beam.apache.org/get-started/wordcount-example/

如何从 Apache Beam 的 Pcollection 中获取一个元素

问题描述

2 个解决方案

解决方案1
1 2020-03-31 14:13:43

解决方案2
0 2020-03-31 13:53:20

如何从 Apache Beam 的 Pcollection 中获取一个元素

问题描述

2 个解决方案

解决方案1 1 2020-03-31 14:13:43

解决方案2 0 2020-03-31 13:53:20

解决方案1
1 2020-03-31 14:13:43

解决方案2
0 2020-03-31 13:53:20