写入Apache Spark中的文件

Question

我正在写一个Scala代码，要求我写入HDFS中的文件。 当我在本地使用Filewriter.write时，它可以工作。 同样的事情不适用于HDFS。 检查后，我发现在Apache RDD.saveAsTextFile和DataFrame.write.format中有以下选项可供编写。

我的问题是：如果我只想在Apache Spark中为文件写一个int或字符串怎么办？

跟进：我需要在输出文件中写入一个标题，DataFrame内容然后追加一些字符串。 sc.parallelize(Seq(<String>))帮助吗？

Answer 1

使用Seq使用您的数据（int / string）创建RDD ：有关详细信息，请参阅parallelized-collections ：

sc.parallelize(Seq(5))  //for writing int (5)
sc.parallelize(Seq("Test String")) // for writing string

val conf = new SparkConf().setAppName("Writing Int to File").setMaster("local")
val sc = new SparkContext(conf) 
val intRdd= sc.parallelize(Seq(5))   
intRdd.saveAsTextFile("out\\int\\test")

val conf = new SparkConf().setAppName("Writing string to File").setMaster("local")
val sc = new SparkContext(conf)   
val stringRdd = sc.parallelize(Seq("Test String"))
stringRdd.saveAsTextFile("out\\string\\test")

Answer 2

跟进示例:(测试如下）

val conf = new SparkConf().setAppName("Total Countries having Icon").setMaster("local")
val sc = new SparkContext(conf)

val headerRDD= sc.parallelize(Seq("HEADER"))

//Replace BODY part with your DF
val bodyRDD= sc.parallelize(Seq("BODY"))

val footerRDD = sc.parallelize(Seq("FOOTER"))

//combine all rdds to final    
val finalRDD = headerRDD ++ bodyRDD ++ footerRDD 

//finalRDD.foreach(line => println(line))

//output to one file
finalRDD.coalesce(1, true).saveAsTextFile("test")

输出：

HEADER
BODY
FOOTER

这里有更多例子。 。。

写入Apache Spark中的文件

问题描述

2 个解决方案

解决方案1
17 已采纳 2016-08-26 19:16:40

解决方案2
4 2016-08-26 23:16:03

写入Apache Spark中的文件

问题描述

2 个解决方案

解决方案1 17 已采纳 2016-08-26 19:16:40

解决方案2 4 2016-08-26 23:16:03

解决方案1
17 已采纳 2016-08-26 19:16:40

解决方案2
4 2016-08-26 23:16:03