使用 Pyspark 如何读取 JSON 文件并创建模式

Question

我有一个 JSON 文件，格式如下。 如何使用 PYSPARK 函数读取它并为此创建模式 -

{
        "Entry": {
                "DataType": "Integer",
                "Length": "7",
                "Required": "True",
                "Description": "Enrty"
        },
        "Per": {
                "DataType": "String",
                "Length": "2",
                "Required": "True",
                "Description": "Per"
        }
}

Answer 1

您可以执行以下操作以从您拥有的json文件中获取schema

from pyspark.sql import types as t
def getDataType(DataType):
    if DataType == 'Float':
        return t.FloatType()
    elif DataType == 'Integer':
        return t.IntegerType()
    elif DataType == 'Date':
        return t.DateType()
    elif DataType == 'Double':
        return t.DoubleType()
    else:
        return t.StringType()

def getNullable(Required):
    if Required == 'True':
        return True
    else:
        return False

df = spark.read.option('multiline', True).json('path to json file')
schema = t.StructType([t.StructField(x['Description'], getDataType(x['DataType']), getNullable(x['Required'])) for x in df.rdd.first()])

所以schema应该是

StructType(List(StructField(Enrty,IntegerType,true),StructField(Per,StringType,true)))

使用 Pyspark 如何读取 JSON 文件并创建模式

问题描述

1 个解决方案

解决方案1
0 已采纳 2018-06-18 04:37:29

使用 Pyspark 如何读取 JSON 文件并创建模式

问题描述

1 个解决方案

解决方案1 0 已采纳 2018-06-18 04:37:29

解决方案1
0 已采纳 2018-06-18 04:37:29