Spark：在RDD中查找元素的最快方法

Question

我有一個自定義的E類，其中除其他外還有一個領域word 。 我有一個大的es: RDD[E]帶有幾個100000元素的es: RDD[E]和一個doc: Seq[String]通常有幾百個條目的doc: Seq[String] 。 在es ，每個元素的word字段值都是唯一的。

我的任務是為doc每個字符串查找es的元素。 但是，不能保證存在這樣的元素。 因此，我朴素的Scala / Spark實現是：

def word2E(words: Seq[String]): Seq[E] = {
  words.map(lookupWord(_, es))
    .filter(_.isDefined)
    .map(_.get)
}

方法lookupWord()定義如下：

def lookupWord(w: String, es: RDD[E]): Option[E] = {
  val lookup = es.filter(_.word.equals(w))

  if (lookup.isEmpty) None
  else Some(lookup.first)
}

當我查看Spark階段概述時， lookupWord()似乎是一個瓶頸。 特別是在某些情況下， lookupWord的isEmpty()調用lookupWord花費相對較長的時間（最多2s）。

我已經堅持了es RDD。 是否還有其他方法可以優化此類任務，或者與在此類數據集上進行操作時獲得的效果一樣好嗎？

我注意到PairRDDFunctions的lookup()方法，並考慮構造一個PairRDD，其中word字段將用作鍵。 可能有幫助嗎？ 通過實驗得出任何結論都非常困難，因為涉及的因素太多。

Answer 1

您的實現的問題是，你觸發每個字words你的完整遍歷RDD ，然后收集要素。 解決問題的一種方法是將單詞序列與RDD ：

case class E(word: String, value: Int)

object App {

  def main(args: Array[String]) {
    val sparkConf = new SparkConf().setAppName("Test").setMaster("local[4]")
    val sc = new SparkContext(sparkConf)

    val entries = sc.parallelize(List(E("a", 1), E("b", 2), E("c", 3), E("c", 3)))

    val words = Seq("a", "a", "c")

    val wordsRDD = sc.parallelize(words).map(x => (x, x))

    val matchingEntries = entries
      .map(x => (x.word, x))
      .join(wordsRDD)
      .map{
        case (_, (entry, _)) => entry
      }
      .collect

    println(matchingEntries.mkString("\n"))
  }
}

輸出是

E(a,1)
E(a,1)
E(c,3)
E(c,3)

Spark：在RDD中查找元素的最快方法

問題描述

1 個解決方案

解決方案1
1 已采納 2015-08-26 09:16:54

Spark：在RDD中查找元素的最快方法

問題描述

1 個解決方案

解決方案1 1 已采納 2015-08-26 09:16:54

解決方案1
1 已采納 2015-08-26 09:16:54