使用 Spark-Scala 解析列中的 JSON 根

Question

为了将 JSOM 的根转换为数据框中的记录以获取未确定数量的记录，我遇到了问题。

我有一个使用 JSON 生成的数据框，类似于以下内容：

val exampleJson = spark.createDataset(
  """
  {"ITEM1512":
        {"name":"Yin",
         "address":{"city":"Columbus",
                    "state":"Ohio"}
                    }, 
    "ITEM1518":
        {"name":"Yang",
         "address":{"city":"Working",
                    "state":"Marc"}
                    }
  }""" :: Nil)

当我阅读以下说明时

val itemsExample = spark.read.json(exampleJson)

生成的模式和数据框如下：

+-----------------------+-----------------------+
|ITEM1512               |ITEM1518               |
+-----------------------+-----------------------+
|[[Columbus, Ohio], Yin]|[[Working, Marc], Yang]|
+-----------------------+-----------------------+

root
 |-- ITEM1512: struct (nullable = true)
 |    |-- address: struct (nullable = true)
 |    |    |-- city: string (nullable = true)
 |    |    |-- state: string (nullable = true)
 |    |-- name: string (nullable = true)
 |-- ITEM1518: struct (nullable = true)
 |    |-- address: struct (nullable = true)
 |    |    |-- city: string (nullable = true)
 |    |    |-- state: string (nullable = true)
 |    |-- name: string (nullable = true)

但我想生成这样的东西：

+-----------------------+-----------------------+
|Item                   |Values                 |
+-----------------------+-----------------------+
|ITEM1512               |[[Columbus, Ohio], Yin]|
|ITEM1518               |[[Working, Marc], Yang]|
+-----------------------+-----------------------+

因此，为了解析这个 JSON 数据，我需要读取所有列并将其添加到数据框中的记录中，因为我写的不仅仅是这两项作为示例。 事实上，我想在数据框中添加数百万个项目。

我正在尝试复制此处找到的解决方案： How to parse the JSON data using Spark-Scala with this code：

val columns:Array[String]       = itemsExample.columns
var arrayOfDFs:Array[DataFrame] = Array() 

for(col_name <- columns){

  val temp = itemsExample.selectExpr("explode("+col_name+") as element")
    .select(
      lit(col_name).as("Item"),
      col("element.E").as("Value"))

  arrayOfDFs = arrayOfDFs :+ temp
}

val jsonDF = arrayOfDFs.reduce(_ union _)
jsonDF.show(false)

但是我在阅读另一个问题的示例中遇到了这个问题，在我的情况下，根在数组中，根是StrucType。 因此引发下一个异常：

org.apache.spark.sql.AnalysisException: cannot resolve 'explode( ITEM1512 )' due to data type mismatch: input to function explode should be array or map type, not struct,name:string>

Answer 1

您可以使用stack function。

Example:

itemsExample.selectExpr("""stack(2,'ITEM1512',ITEM1512,'ITEM1518',ITEM1518) as (Item,Values)""").
show(false)
//+--------+-----------------------+
//|Item    |Values                 |
//+--------+-----------------------+
//|ITEM1512|[[Columbus, Ohio], Yin]|
//|ITEM1518|[[Working, Marc], Yang]|
//+--------+-----------------------+

更新：

Dynamic Stack query:

val stack=df.columns.map(x => s"'${x}',${x}").mkString(s"stack(${df.columns.size},",",",")as (Item,Values)")
//stack(2,'ITEM1512',ITEM1512,'ITEM1518',ITEM1518) as (Item,Values)

itemsExample.selectExpr(stack).show()
//+--------+-----------------------+
//|Item    |Values                 |
//+--------+-----------------------+
//|ITEM1512|[[Columbus, Ohio], Yin]|
//|ITEM1518|[[Working, Marc], Yang]|
//+--------+-----------------------+

使用 Spark-Scala 解析列中的 JSON 根

问题描述

1 个解决方案

解决方案1
3 已采纳 2020-05-08 02:23:59

使用 Spark-Scala 解析列中的 JSON 根

问题描述

1 个解决方案

解决方案1 3 已采纳 2020-05-08 02:23:59

解决方案1
3 已采纳 2020-05-08 02:23:59