![](/img/trans.png)
[英]How to read first record from .dat file transform it and finally store in HDFS
[英]spark- scala:How to read data from .dat file transform it and finally store in HDFS
我是 spark-scala 的新手,所以請幫助我。 我有 .dat 文件,其中包含下面給出的數據列表,其中有序列號、名字、姓氏。文件有 19000 條記錄:
SerialNo FirstName LastName
1 約翰沃德
2 賈斯珀平托
3 沙利眩暈
。等等
將其轉換為按名字排序的 RDD 數據,最后將排序后的數據存儲在 HDFS 中,規范如下:
最后存儲在 HDFS 中
我不確定如何在 spark-scala 中為此編寫代碼。所以請幫我解決這個問題。
請找出解決辦法
val rdd = sc.textFile("/path/Test.dat")
val rddmap = rdd.map(i => i.split(" ")).map(i => (i(1),i(2))).sortByKey().map(i => i._1 + "%$" + i._2)
rddmap.repartition(1).saveAsTextFile("/path/TestOut1.dat")
輸出
賈斯珀%$平托
約翰%$沃德
莎莉%$眩暈
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.