如何使用 pyspark 將 csv 文件轉換或保存為 txt 文件

Question

我正在學習 Pyspark，我不知道如何將 RDD 值的總和保存到文件中。 我試過下面的代碼失敗了：

from typing import KeysView

counts = rdd.flatMap(lambda line: line.split(",")) \
             .map(lambda word: (word, 1)) \
             .reduceByKey(lambda a, b: a + b)

k=counts.keys().saveAsTextFile("out/out_1_2a.txt")
sc.parallelize(counts.values().sum()).saveAsTextFile('out/out_1_3.txt')

雖然我可以將鍵保存到一個文件中，但我無法保存值的總和。 我得到的錯誤是：“TypeError: 'int' object is not iterable”

有人可以幫忙：

Answer 1

見下面的邏輯 -

counts = rdd.flatMap(lambda line: line.split(",")) \
             .map(lambda word: (word, 1)) \
             .reduceByKey(lambda a, b: a + b)

cnt_sum = counts.values().sum()

sc.parallelize([cnt_sum]).coalesce(1).saveAsTextFile("<path>/filename.txt")

更有效（更少的代碼）：

count = len(rdd.flatMap(lambda x: x.split(",")).collect())
sc.parallelize([count]).coalesce(1).saveAsTextFile("<path>/filename.txt")

如何使用 pyspark 將 csv 文件轉換或保存為 txt 文件

問題描述

1 個解決方案

解決方案1
0 已采納 2022-03-11 09:16:35

如何使用 pyspark 將 csv 文件轉換或保存為 txt 文件

問題描述

1 個解決方案

解決方案1 0 已采納 2022-03-11 09:16:35

解決方案1
0 已采納 2022-03-11 09:16:35