簡體   English   中英

pyspark 中出現的字數相同——

[英]same occurrences of word count in pyspark --

from pyspark import SparkContext
sc = SparkContext("local", "first app")
text = sc.textFile("C:\data.txt")
words = text.map(lambda line: str(line)).flatMap(lambda x: x.lower().split(" "))

print(words.top(100))
total_words = words.count()
print(words.count())
wordCount = words.map(lambda x: (x,1)).reduceByKey(lambda x,y: x+y)
print(wordCount.top(20))

輸入: mahi, Mahi, mAhi, maHi, mahI, MAHI, MAhi, MAHi, straw, Straw, STRAW, berry, Berry
輸出: [('straw,', 3), ('mahi,', 8), ('berry,', 1), ('berry', 1)]
但是輸出應該返回[('straw,', 3), ('mahi,', 8), ('berry,', 2)] 我是pyspark 任何人都可以幫助我代碼有什么問題嗎?

pyspark,作為字符串的一部分,所以berry,Berry是不一樣的。 你可以在結果中看到

('berry,', 1)
('berry', 1)

也用逗號分割

text.map(lambda line: str(line)).flatMap(lambda x: x.lower().split(", "))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM