spark-scala：如何從 .dat 文件讀取數據轉換它並最終存儲在 HDFS 中

Question

我是 spark-scala 的新手，所以請幫助我。 我有 .dat 文件，其中包含下面給出的數據列表，其中有序列號、名字、姓氏。文件有 19000 條記錄：

SerialNo FirstName LastName

1 約翰沃德

2 賈斯珀平托

3 沙利眩暈

。等等

我需要從 Spark RDD 中的 .dat 文件中讀取數據。
將其轉換為按名字排序的 RDD 數據，最后將排序后的數據存儲在 HDFS 中，規范如下：
- 輸出文件應該只有名字和姓氏
- 名字和姓氏應該用“%$”符號分隔
- 輸出應存儲在單個文件中。
最后存儲在 HDFS 中

我不確定如何在 spark-scala 中為此編寫代碼。所以請幫我解決這個問題。

Answer 1

請找出解決辦法

val rdd = sc.textFile("/path/Test.dat")
val rddmap = rdd.map(i => i.split(" ")).map(i => (i(1),i(2))).sortByKey().map(i => i._1 + "%$" + i._2)
rddmap.repartition(1).saveAsTextFile("/path/TestOut1.dat")

輸出

賈斯珀%$平托

約翰%$沃德

莎莉%$眩暈

spark-scala：如何從 .dat 文件讀取數據轉換它並最終存儲在 HDFS 中

問題描述

1 個解決方案

解決方案1
2 已采納 2018-08-12 17:02:15

spark-scala：如何從 .dat 文件讀取數據轉換它並最終存儲在 HDFS 中

問題描述

1 個解決方案

解決方案1 2 已采納 2018-08-12 17:02:15

解決方案1
2 已采納 2018-08-12 17:02:15