將RDD保存為pyspark中的序列文件

Question

我可以運行此腳本以文本格式保存文件，但是當我嘗試運行saveAsSequenceFile時，它出錯了。 如果有人對如何將RDD保存為序列文件有任何想法，請告訴我該過程。 我嘗試在“ Learning Spark”以及官方Spark文檔中尋找解決方案。

這成功運行

dataRDD = sc.textFile("/user/cloudera/sqoop_import/departments")
dataRDD.saveAsTextFile("/user/cloudera/pyspark/departments")

這失敗了

dataRDD = sc.textFile("/user/cloudera/sqoop_import/departments")
dataRDD.saveAsSequenceFile("/user/cloudera/pyspark/departmentsSeq")

錯誤：調用z：org.apache.spark.api.python.PythonRDD.saveAsSequenceFile時發生錯誤。 ：org.apache.spark.SparkException：無法使用類型為java.lang.String的RDD元素

數據如下：

2,Fitness
3,Footwear
4,Apparel
5,Golf
6,Outdoors
7,Fan Shop
8,TESTING
8000,TESTING

Answer 1

序列文件用於存儲鍵值對，因此您不能簡單地存儲RDD[String] 。 根據您的數據，我想您正在尋找的是這樣的東西：

rdd = sc.parallelize([
    "2,Fitness", "3,Footwear", "4,Apparel"
])
rdd.map(lambda x: tuple(x.split(",", 1))).saveAsSequenceFile("testSeq")

如果要保留整個字符串，請使用None鍵：

rdd.map(lambda x: (None, x)).saveAsSequenceFile("testSeqNone")

Answer 2

要寫入Sequence文件，您需要使用Hadoop API格式的數據。

文字字符串
詮釋為可寫

在Python中：

data = [(1, ""),(1, "a"),(2, "bcdf")]
sc.parallelize(data).saveAsNewAPIHadoopFile(path,"org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat","org.apache.hadoop.io.IntWritable","org.apache.hadoop.io.Text")

將RDD保存為pyspark中的序列文件

問題描述

2 個解決方案

解決方案1
6 已采納 2015-12-28 10:50:55

解決方案2
0 2015-12-28 10:35:36

將RDD保存為pyspark中的序列文件

問題描述

2 個解決方案

解決方案1 6 已采納 2015-12-28 10:50:55

解決方案2 0 2015-12-28 10:35:36

解決方案1
6 已采納 2015-12-28 10:50:55

解決方案2
0 2015-12-28 10:35:36