將 Spark Dataframe 轉換為 Scala Map 集合

Question

我試圖找到將整個 Spark dataframe 轉換為 scala Map 集合的最佳解決方案。 最好的說明如下：

從此（在 Spark 示例中）到 go：

val df = sqlContext.read.json("examples/src/main/resources/people.json")

df.show
+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+

對於 Scala 集合（Map of Maps）表示如下：

val people = Map(
Map("age" -> null, "name" -> "Michael"),
Map("age" -> 30, "name" -> "Andy"),
Map("age" -> 19, "name" -> "Justin")
)

Answer 1

我認為您的問題沒有道理-您的最外層Map ，我只看到您正在嘗試將值填充到其中-您需要在最外層Map具有鍵/值對。 話雖如此：

val peopleArray = df.collect.map(r => Map(df.columns.zip(r.toSeq):_*))

會給你：

Array(
  Map("age" -> null, "name" -> "Michael"),
  Map("age" -> 30, "name" -> "Andy"),
  Map("age" -> 19, "name" -> "Justin")
)

在那時，您可以執行以下操作：

val people = Map(peopleArray.map(p => (p.getOrElse("name", null), p)):_*)

這會給你：

Map(
  ("Michael" -> Map("age" -> null, "name" -> "Michael")),
  ("Andy" -> Map("age" -> 30, "name" -> "Andy")),
  ("Justin" -> Map("age" -> 19, "name" -> "Justin"))
)

我猜這確實是您想要的。 如果要在任意Long索引上鍵入它們，可以執行以下操作：

val indexedPeople = Map(peopleArray.zipWithIndex.map(r => (r._2, r._1)):_*)

這給你：

Map(
  (0 -> Map("age" -> null, "name" -> "Michael")),
  (1 -> Map("age" -> 30, "name" -> "Andy")),
  (2 -> Map("age" -> 19, "name" -> "Justin"))
)

Answer 2

首先從數據框獲取架構

val schemaList = dataframe.schema.map(_.name).zipWithIndex//get schema list from dataframe

從數據框獲取rdd並與其映射

dataframe.rdd.map(row =>
  //here rec._1 is column name and rce._2 index
  schemaList.map(rec => (rec._1, row(rec._2))).toMap
 ).collect.foreach(println)

Answer 3

val map =df.collect.map(a=>(a(0)->a(1))).toMap.asInstanceOf[Map[String,String]]

如果 map 中需要結果而不是 array(map)

將 Spark Dataframe 轉換為 Scala Map 集合

問題描述

3 個解決方案

解決方案1
14 已采納 2016-04-27 16:57:51

解決方案2
2 2016-04-27 16:58:03

解決方案3
1 2022-09-28 16:17:33

將 Spark Dataframe 轉換為 Scala Map 集合

問題描述

3 個解決方案

解決方案1 14 已采納 2016-04-27 16:57:51

解決方案2 2 2016-04-27 16:58:03

解決方案3 1 2022-09-28 16:17:33

解決方案1
14 已采納 2016-04-27 16:57:51

解決方案2
2 2016-04-27 16:58:03

解決方案3
1 2022-09-28 16:17:33