Spark RDD转换问题

Question

我有这种格式的数据：

100 1 2 3 4 5

我使用以下代码加载它：

 val data : RDD[(String, Array[Int])] = sc.textFile("data.txt").map(line => ((line.split("\t"))(0), (line.split("\t"))(1).split(" ").map(_.toInt)))

我想从Array [Int]生成对，以使值大于数字（以下代码中为2）的数组元素与该数组的所有其他元素配对。 然后，我将使用它来生成进一步的统计信息。 例如，使用样本数据，我应该能够首先生成此数据：

100（3,1），（3,2），（3,4），（3,5），（4,1），（4,2），（4,3），（4,5）

val test = merged_data.mapValues { case x =>
      for (element <- x) {
        val y = x.filter(_ != element)

        if (element > 2)
          {

            for (yelement <- y)
              {
                (element, yelement)
              }
          }
      }
      }

这是我得到的o / p：Array [（String，Unit）] = Array（（100，（）））不知道为什么它为空。

一旦能够解决此问题，我将对元组中的元素进行排序，并删除重复项（如果有的话），即上述o / p

100（3,1），（3,2），（3,4），（3,5），（4,1），（4,2），（4,3），（4,5）

成为这个：

100（1,3），（2,3），（3,4），（3,5），（1,4），（2,4），（4,5）

Answer 1

我能够解决这个问题：

  val test = merged_data.mapValues { case x =>
  var sb = new StringBuilder

  for (element <- x) {
    val y = x.filter(_ != element)

    if (element > 2)
      {

        for (yelement <- y)
          {
            (element, yelement)
          }
      }
  }
  sb.toString()
  }

Answer 2

怎么样的：

val test = data.mapValues { x =>
    for {
        element <- x.filter(_ > 2);
        yelement <- x.filter(_ != element)
    } yield (element, yelement)
}

另外，您可能想看看： Scala中的嵌套迭代，它回答了为什么得到空结果的原因。

Spark RDD转换问题

问题描述

2 个解决方案

解决方案1
0 2016-02-15 21:19:28

解决方案2
0 2016-02-15 21:53:40

Spark RDD转换问题

问题描述

2 个解决方案

解决方案1 0 2016-02-15 21:19:28

解决方案2 0 2016-02-15 21:53:40

解决方案1
0 2016-02-15 21:19:28

解决方案2
0 2016-02-15 21:53:40