如何將DataFrame中的struct映射到case類？

Question

在我的應用程序中的某個時刻，我有一個DataFrame，其中包含從案例類創建的Struct字段。 現在我想將它轉換/映射回case類類型：

import spark.implicits._
case class Location(lat: Double, lon: Double)

scala> Seq((10, Location(35, 25)), (20, Location(45, 35))).toDF
res25: org.apache.spark.sql.DataFrame = [_1: int, _2: struct<lat: double, lon: double>]

scala> res25.printSchema
root
 |-- _1: integer (nullable = false)
 |-- _2: struct (nullable = true)
 |    |-- lat: double (nullable = false)
 |    |-- lon: double (nullable = false)

基本的：

res25.map(r => {
   Location(r.getStruct(1).getDouble(0), r.getStruct(1).getDouble(1))
}).show(1)

看起來很臟有沒有更簡單的方法？

Answer 1

在Spark 1.6+中，如果要保留保留的類型信息，請使用數據集（DS），而不是DataFrame（DF）。

import spark.implicits._
case class Location(lat: Double, lon: Double)

scala> Seq((10, Location(35, 25)), (20, Location(45, 35))).toDS
res25: org.apache.spark.sql.Dataset[(Int, Location)] = [_1: int, _2: struct<lat: double, lon: double>]

scala> res25.printSchema
root
 |-- _1: integer (nullable = false)
 |-- _2: struct (nullable = true)
 |    |-- lat: double (nullable = false)
 |    |-- lon: double (nullable = false)

它會給你Dataset[(Int, Location)] 。 現在，如果你想再次回到它的case類原點，那么就這樣做：

scala> res25.map(r => r._2).show(1)
+----+----+
| lat| lon|
+----+----+
|35.0|25.0|
+----+----+

但是，如果你想堅持DataFrame API，因為它是動態類型的性質，那么你必須像這樣編碼它：

scala> res25.select("_2.*").map(r => Location(r.getDouble(0), r.getDouble(1))).show(1)
+----+----+
| lat| lon|
+----+----+
|35.0|25.0|
+----+----+

Answer 2

您還可以使用Row中的提取器模式，使用更多慣用的scala來提供類似的結果：

scala> res25.map { row =>
  (row: @unchecked) match {
    case Row(a: Int, Row(b: Double, c: Double)) => (a, Location(b, c))
  }
}
res26: org.apache.spark.sql.Dataset[(Int, Location)] = [_1: int, _2: struct<lat: double, lon: double>]
scala> res26.collect()
res27: Array[(Int, Location)] = Array((10,Location(35.0,25.0)), (20,Location(45.0,35.0)))

Answer 3

我認為其他答案已經確定了，但也許他們可能需要一些其他的措辭。

簡而言之，不可能在DataFrames中使用case類，因為它們不涉及case類並且使用RowEncoder將內部SQL類型映射到Row 。

正如其他答案所說，您必須使用as運算符將基於Row的DataFrame轉換為Dataset 。

val df = Seq((10, Location(35, 25)), (20, Location(45, 35))).toDF
scala> val ds = df.as[(Int, Location)]
ds: org.apache.spark.sql.Dataset[(Int, Location)] = [_1: int, _2: struct<lat: double, lon: double>]

scala> ds.show
+---+-----------+
| _1|         _2|
+---+-----------+
| 10|[35.0,25.0]|
| 20|[45.0,35.0]|
+---+-----------+

scala> ds.printSchema
root
 |-- _1: integer (nullable = false)
 |-- _2: struct (nullable = true)
 |    |-- lat: double (nullable = false)
 |    |-- lon: double (nullable = false)

scala> ds.map[TAB pressed twice]

def map[U](func: org.apache.spark.api.java.function.MapFunction[(Int, Location),U],encoder: org.apache.spark.sql.Encoder[U]): org.apache.spark.sql.Dataset[U]
def map[U](func: ((Int, Location)) => U)(implicit evidence$6: org.apache.spark.sql.Encoder[U]): org.apache.spark.sql.Dataset[U]

如何將DataFrame中的struct映射到case類？

問題描述

3 個解決方案

解決方案1
3 已采納 2017-04-08 15:04:25

解決方案2
2 2017-04-08 15:40:26

解決方案3
2 2017-04-09 19:08:14

如何將DataFrame中的struct映射到case類？

問題描述

3 個解決方案

解決方案1 3 已采納 2017-04-08 15:04:25

解決方案2 2 2017-04-08 15:40:26

解決方案3 2 2017-04-09 19:08:14

解決方案1
3 已采納 2017-04-08 15:04:25

解決方案2
2 2017-04-08 15:40:26

解決方案3
2 2017-04-09 19:08:14