簡體   English   中英

spark-scala:如何從 .dat 文件讀取數據轉換它並最終存儲在 HDFS 中

[英]spark- scala:How to read data from .dat file transform it and finally store in HDFS

我是 spark-scala 的新手,所以請幫助我。 我有 .dat 文件,其中包含下面給出的數據列表,其中有序列號、名字、姓氏。文件有 19000 條記錄:

SerialNo FirstName LastName

1 約翰沃德

2 賈斯珀平托

3 沙利眩暈

。等等

  1. 我需要從 Spark RDD 中的 .dat 文件中讀取數據
  2. 將其轉換為按名字排序的 RDD 數據,最后將排序后的數據存儲在 HDFS 中,規范如下:

    • 輸出文件應該只有名字和姓氏
    • 名字和姓氏應該用“%$”符號分隔
    • 輸出應存儲在單個文件中
  3. 最后存儲在 HDFS 中

我不確定如何在 spark-scala 中為此編寫代碼。所以請幫我解決這個問題。

請找出解決辦法

val rdd = sc.textFile("/path/Test.dat")
val rddmap = rdd.map(i => i.split(" ")).map(i => (i(1),i(2))).sortByKey().map(i => i._1 + "%$" + i._2)
rddmap.repartition(1).saveAsTextFile("/path/TestOut1.dat")

輸出

賈斯珀%$平托

約翰%$沃德

莎莉%$眩暈

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM