[英]same occurrences of word count in pyspark --
from pyspark import SparkContext
sc = SparkContext("local", "first app")
text = sc.textFile("C:\data.txt")
words = text.map(lambda line: str(line)).flatMap(lambda x: x.lower().split(" "))
print(words.top(100))
total_words = words.count()
print(words.count())
wordCount = words.map(lambda x: (x,1)).reduceByKey(lambda x,y: x+y)
print(wordCount.top(20))
輸入: mahi, Mahi, mAhi, maHi, mahI, MAHI, MAhi, MAHi, straw, Straw, STRAW, berry, Berry
輸出: [('straw,', 3), ('mahi,', 8), ('berry,', 1), ('berry', 1)]
但是輸出應該返回[('straw,', 3), ('mahi,', 8), ('berry,', 2)]
。 我是pyspark
。 任何人都可以幫助我代碼有什么問題嗎?
pyspark
將,
作為字符串的一部分,所以berry,
和Berry
是不一樣的。 你可以在結果中看到
('berry,', 1)
('berry', 1)
也用逗號分割
text.map(lambda line: str(line)).flatMap(lambda x: x.lower().split(", "))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.