簡體   English   中英

Spark Kafka WordCount Python

[英]Spark Kafka WordCount Python

我剛剛開始使用Apache Spark,並嘗試讓kafka wordcount在python中工作。 我已經決定使用python作為它的語言,我可以將其用於其他大數據技術,而且DataBricks也通過spark提供課程。

我的問題:我正在從這里運行基本的單詞計數示例: https : //github.com/apache/spark/blob/master/examples/src/main/python/streaming/kafka_wordcount.py似乎開始並連接了到kafka日志,但我看不到它實際上產生了字數統計。 然后,我添加了以下幾行內容以寫入文本文件,它僅產生一堆空文本文件。 它正在連接到kafka主題,並且該主題中有數據,如何查看該數據對數據的實際作用? 可能是時間安排嗎? 干杯。

用於處理kafka數據的代碼

                counts = lines.flatMap(lambda line: line.split("|")) \
                    .map(lambda word: (word, 1)) \
                    .reduceByKey(lambda a, b: a+b) \
                    .saveAsTextFiles("sparkfiles")

Kafka主題中的數據

                    16|16|Mr|Joe|T|Bloggs

抱歉,我是個白痴。 當我在spark應用運行時為主題生成數據時,我可以在輸出中看到以下內容

                (u'a', 29)
                (u'count', 29)
                (u'This', 29)
                (u'is', 29)
                (u'so', 29)
                (u'words', 29)
                (u'spark', 29)
                (u'the', 29)
                (u'can', 29)
                (u'sentence', 29)

這表示每個單詞在剛剛由spark處理的塊中表示了多少次。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM