使用 spark/scala 按照 json 文件中首先列出的列的顺序将 json 转换为数据帧

Question

我使用spark/scala将我的 json 转换为数据帧。 例如，下面是json

我希望我的数据框按顺序打印出以下内容（目前按字母顺序打印）

使用终端进行转换： val df_in=spark.read.option("multiLine","true").json("/Users/testfile/tests.json")和df_in.show()

当我运行上面的代码时，它会将 json 文件转换为 df 但不是按照我想要的顺序 - 有没有办法按照我的 json 文件中首先列出的列的顺序打印出来？

Answer 1

您可以定义模式并在读取文件时使用它。

val schema="FirstName STRING,LastName STRING,MiddleName STRING,username STRING,password STRING"

val df_in=spark.read.option("multiLine","true").schema(schema).json("/Users/testfile/tests.json")

如果您指定架构，它也会避免额外的扫描。

Answer 2

您还可以使用列的选择和选择

df = df.select("FirstName", "LastName", "MiddleName", "username" "password").show()

使用 spark/scala 按照 json 文件中首先列出的列的顺序将 json 转换为数据帧

问题描述

2 个解决方案

解决方案1
1 已采纳 2021-07-13 15:04:09

解决方案2
0 2021-07-13 15:21:07

使用 spark/scala 按照 json 文件中首先列出的列的顺序将 json 转换为数据帧

问题描述

2 个解决方案

解决方案1 1 已采纳 2021-07-13 15:04:09

解决方案2 0 2021-07-13 15:21:07

解决方案1
1 已采纳 2021-07-13 15:04:09

解决方案2
0 2021-07-13 15:21:07