[英]Spark Kafka WordCount Python
我刚刚开始使用Apache Spark,并尝试让kafka wordcount在python中工作。 我已经决定使用python作为它的语言,我可以将其用于其他大数据技术,而且DataBricks也通过spark提供课程。
我的问题:我正在从这里运行基本的单词计数示例: https : //github.com/apache/spark/blob/master/examples/src/main/python/streaming/kafka_wordcount.py似乎开始并连接了到kafka日志,但我看不到它实际上产生了字数统计。 然后,我添加了以下几行内容以写入文本文件,它仅产生一堆空文本文件。 它正在连接到kafka主题,并且该主题中有数据,如何查看该数据对数据的实际作用? 可能是时间安排吗? 干杯。
用于处理kafka数据的代码
counts = lines.flatMap(lambda line: line.split("|")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a+b) \
.saveAsTextFiles("sparkfiles")
Kafka主题中的数据
16|16|Mr|Joe|T|Bloggs
抱歉,我是个白痴。 当我在spark应用运行时为主题生成数据时,我可以在输出中看到以下内容
(u'a', 29)
(u'count', 29)
(u'This', 29)
(u'is', 29)
(u'so', 29)
(u'words', 29)
(u'spark', 29)
(u'the', 29)
(u'can', 29)
(u'sentence', 29)
这表示每个单词在刚刚由spark处理的块中表示了多少次。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.