如何在Spark Scala中使用数据集设置数组类型

Question

I have a source data like this: 我有这样的源数据：

{A:123,B:"Hello world",C:[{D:123,E:"Spark"}]}

And i have a Object: 我有一个对象：

case class TestClass (A:Int;B:String;C:???)
val obj:Dataset[TestClass] = df.as[TestClass]

How should I define the type of C? 我应该如何定义C的类型？

Answer 1

One option 一种选择

case class Nested(D: Long, E: String)
case class TestClass (A: Long, B:String, C: Seq[Nested])

Usage: 用法：

spark.read.json(sc.parallelize(
  Seq("""{"A": 123, "B": "Hello world", "C": [{"D": 123, "E": "Spark"}]}"""
))).as[TestClass].show

+---+-----------+-------------+
|  A|          B|            C|
+---+-----------+-------------+
|123|Hello world|[[123,Spark]]|
+---+-----------+-------------+

如何在Spark Scala中使用数据集设置数组类型

问题描述

1 个解决方案

解决方案1
3 已采纳 2017-10-16 14:30:09

如何在Spark Scala中使用数据集设置数组类型

问题描述

1 个解决方案

解决方案1 3 已采纳 2017-10-16 14:30:09

解决方案1
3 已采纳 2017-10-16 14:30:09