Spark Kafka WordCount Python

Question

我剛剛開始使用Apache Spark，並嘗試讓kafka wordcount在python中工作。 我已經決定使用python作為它的語言，我可以將其用於其他大數據技術，而且DataBricks也通過spark提供課程。

我的問題：我正在從這里運行基本的單詞計數示例： https : //github.com/apache/spark/blob/master/examples/src/main/python/streaming/kafka_wordcount.py似乎開始並連接了到kafka日志，但我看不到它實際上產生了字數統計。 然后，我添加了以下幾行內容以寫入文本文件，它僅產生一堆空文本文件。 它正在連接到kafka主題，並且該主題中有數據，如何查看該數據對數據的實際作用？ 可能是時間安排嗎？ 干杯。

用於處理kafka數據的代碼

                counts = lines.flatMap(lambda line: line.split("|")) \
                    .map(lambda word: (word, 1)) \
                    .reduceByKey(lambda a, b: a+b) \
                    .saveAsTextFiles("sparkfiles")

Kafka主題中的數據

                    16|16|Mr|Joe|T|Bloggs

Answer 1

抱歉，我是個白痴。 當我在spark應用運行時為主題生成數據時，我可以在輸出中看到以下內容

                (u'a', 29)
                (u'count', 29)
                (u'This', 29)
                (u'is', 29)
                (u'so', 29)
                (u'words', 29)
                (u'spark', 29)
                (u'the', 29)
                (u'can', 29)
                (u'sentence', 29)

這表示每個單詞在剛剛由spark處理的塊中表示了多少次。

Spark Kafka WordCount Python

問題描述

1 個解決方案

解決方案1
0 2015-05-14 01:18:06

Spark Kafka WordCount Python

問題描述

1 個解決方案

解決方案1 0 2015-05-14 01:18:06

解決方案1
0 2015-05-14 01:18:06