簡體   English   中英

在Spark中將地圖轉換為mapPartitions

[英]Convert map to mapPartitions in spark

我有一個代碼,可以使用map transformatio來分析日志文件。 然后將RDD轉換為DF

val logData = sc.textFile("hdfs://quickstart.cloudera:8020/user/cloudera/syslog.txt")

val logDataDF = logData.map(rec => (rec.split(" ")(0), rec.split(" ")(2), rec.split(" ")(5))).toDF("month", "date", "process")

我想知道在這種情況下是否可以使用mapPartitions代替map

我不知道您的用例是什么,但是您絕對可以使用mapPartition代替map 下面的代碼將返回相同的logDataDF

val logDataDF = logData.mapPartitions(x => {
  val lst = scala.collection.mutable.ListBuffer[(String, String, String)]()
  while (x.hasNext) {
    val rec = x.next().split(" ")
    lst += ((rec(0), rec(2), rec(5)))
  }
  lst.iterator
}).toDF("month", "date", "process")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM