Spark Scala RDD遍历

Question

如何使用Spark Scala遍历RDD。 我想用关联的键打印Seq中存在的每个值

res1: org.apache.spark.rdd.RDD[(java.lang.String, Seq[java.lang.String])] = MapPartitionsRDD[6] at groupByKey at <console>:14

我尝试了以下代码。

val ss=mapfile.map(x=>{  
val key=x._1
val value=x._2.sorted
  var i=0
 while (i < value.length) {
   (key,value(i))
    i += 1
      }
    }     
  )
ss.top(20).foreach(println)

Answer 1

我尝试将您的代码转换如下：

val ss = mapfile.flatMap { 
  case (key, value) => value.sorted.map((key, _))
}
ss.top(20).foreach(println)

是你想要的吗？

Answer 2

我试过了，它适用于如上所述的返回类型。

val ss=mapfile.map(x=>{case (key, value) => value.sorted.map((key, _))}.groupByKey().map(x=>(x._1,x._2.toSeq))

    ss.top(20).foreach(println)

注意：ss的类型为：::: org.apache.spark.rdd.RDD [（java.lang.String，Seq [java.lang.String]）]

Spark Scala RDD遍历

问题描述

2 个解决方案

解决方案1
3 2014-09-03 03:13:13

解决方案2
0 2018-12-20 07:26:55

Spark Scala RDD遍历

问题描述

2 个解决方案

解决方案1 3 2014-09-03 03:13:13

解决方案2 0 2018-12-20 07:26:55

解决方案1
3 2014-09-03 03:13:13

解决方案2
0 2018-12-20 07:26:55