[英]Spark Kafka WordCount Python
我剛剛開始使用Apache Spark,並嘗試讓kafka wordcount在python中工作。 我已經決定使用python作為它的語言,我可以將其用於其他大數據技術,而且DataBricks也通過spark提供課程。
我的問題:我正在從這里運行基本的單詞計數示例: https : //github.com/apache/spark/blob/master/examples/src/main/python/streaming/kafka_wordcount.py似乎開始並連接了到kafka日志,但我看不到它實際上產生了字數統計。 然后,我添加了以下幾行內容以寫入文本文件,它僅產生一堆空文本文件。 它正在連接到kafka主題,並且該主題中有數據,如何查看該數據對數據的實際作用? 可能是時間安排嗎? 干杯。
用於處理kafka數據的代碼
counts = lines.flatMap(lambda line: line.split("|")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a+b) \
.saveAsTextFiles("sparkfiles")
Kafka主題中的數據
16|16|Mr|Joe|T|Bloggs
抱歉,我是個白痴。 當我在spark應用運行時為主題生成數據時,我可以在輸出中看到以下內容
(u'a', 29)
(u'count', 29)
(u'This', 29)
(u'is', 29)
(u'so', 29)
(u'words', 29)
(u'spark', 29)
(u'the', 29)
(u'can', 29)
(u'sentence', 29)
這表示每個單詞在剛剛由spark處理的塊中表示了多少次。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.