將RDD [（String，Map [String，Int]）]展平為RDD [String，String，Int]

Question

我試圖將RDD [（String，Map [String，Int]）]展平為RDD [String，String，Int]，最終將其保存為數據框。

    val rdd=hashedContent.map(f=>(f._1,f._2.flatMap(x=> (x._1, x._2))))
    val rdd=hashedContent.map(f=>(f._1,f._2.flatMap(x=>x)))

都具有類型不匹配錯誤。 對如何扁平化這樣的結構有幫助嗎？ 編輯：

    hashedContent -- ("A", Map("acs"->2, "sdv"->2, "sfd"->1)),
                     ("B", Map("ass"->2, "fvv"->2, "ffd"->1)),
                      ("c", Map("dg"->2, "vd"->2, "dgr"->1))

Answer 1

您接近：

rdd.flatMap(x => x._2.map(y => (x._1, y._1, y._2)))
   .toDF()
   .show()
+---+---+---+
| _1| _2| _3|
+---+---+---+
|  A|acs|  2|
|  A|sdv|  2|
|  A|sfd|  1|
|  B|ass|  2|
|  B|fvv|  2|
|  B|ffd|  1|
|  c| dg|  2|
|  c| vd|  2|
|  c|dgr|  1|
+---+---+---+

數據

val data = Seq(("A", Map("acs"->2, "sdv"->2, "sfd"->1)),
               ("B", Map("ass"->2, "fvv"->2, "ffd"->1)),
               ("c", Map("dg"->2, "vd"->2, "dgr"->1)))

val rdd = sc.parallelize(data)

Answer 2

為了完整DataFrame ：一種替代解決方案（可能被認為更具可讀性）將是先將RDD轉換為DataFrame ，然后使用explode轉換其結構：

import org.apache.spark.sql.functions._
import spark.implicits._

rdd.toDF("c1", "map")
  .select($"c1", explode($"map"))
  .show(false)

// same result:
// +---+---+-----+
// |c1 |key|value|
// +---+---+-----+
// |A  |acs|2    |
// |A  |sdv|2    |
// |A  |sfd|1    |
// |B  |ass|2    |
// |B  |fvv|2    |
// |B  |ffd|1    |
// |c  |dg |2    |
// |c  |vd |2    |
// |c  |dgr|1    |
// +---+---+-----+

將RDD [（String，Map [String，Int]）]展平為RDD [String，String，Int]

問題描述

2 個解決方案

解決方案1
4 已采納 2018-08-29 17:26:18

解決方案2
2 2018-08-29 17:59:34

將RDD [（String，Map [String，Int]）]展平為RDD [String，String，Int]

問題描述

2 個解決方案

解決方案1 4 已采納 2018-08-29 17:26:18

解決方案2 2 2018-08-29 17:59:34

解決方案1
4 已采納 2018-08-29 17:26:18

解決方案2
2 2018-08-29 17:59:34