如何從 PySpark 中的數據幀獲取模式定義？

Question

在 PySpark 中，您可以定義架構並使用此預定義架構讀取數據源，例如：

Schema = StructType([ StructField("temperature", DoubleType(), True),
                      StructField("temperature_unit", StringType(), True),
                      StructField("humidity", DoubleType(), True),
                      StructField("humidity_unit", StringType(), True),
                      StructField("pressure", DoubleType(), True),
                      StructField("pressure_unit", StringType(), True)
                    ])

對於某些數據源，可以從數據源推斷模式並獲得具有此模式定義的數據幀。

是否可以從數據幀中獲取模式定義（以上述形式），之前已經推斷出數據？

df.printSchema()將模式打印為樹，但我需要重用模式，將其定義如上，因此我可以讀取具有此模式的數據源，該模式之前已從另一個數據源推斷出來。

Answer 1

對的，這是可能的。 使用DataFrame.schema property

schema

將此 DataFrame 的架構作為 pyspark.sql.types.StructType 返回。
 >>> df.schema StructType(List(StructField(age,IntegerType,true),StructField(name,StringType,true)))
1.3 版中的新功能。

如果需要，模式也可以導出為 JSON 並導入回來。

Answer 2

您可以為現有的 Dataframe 重用架構

l = [('Ankita',25,'F'),('Jalfaizy',22,'M'),('saurabh',20,'M'),('Bala',26,None)]
people_rdd=spark.sparkContext.parallelize(l)
schemaPeople = people_rdd.toDF(['name','age','gender'])

schemaPeople.show()

+--------+---+------+
|    name|age|gender|
+--------+---+------+
|  Ankita| 25|     F|
|Jalfaizy| 22|     M|
| saurabh| 20|     M|
|    Bala| 26|  null|
+--------+---+------+

spark.createDataFrame(people_rdd,schemaPeople.schema).show()

+--------+---+------+
|    name|age|gender|
+--------+---+------+
|  Ankita| 25|     F|
|Jalfaizy| 22|     M|
| saurabh| 20|     M|
|    Bala| 26|  null|
+--------+---+------+

只需使用 df.schema 即可獲取數據框的底層架構

schemaPeople.schema

StructType(List(StructField(name,StringType,true),StructField(age,LongType,true),StructField(gender,StringType,true)))

Answer 3

下面的代碼將為您提供已知數據幀的格式良好的表格模式定義。 當您有非常多的列並且編輯很麻煩時，這非常有用。 然后，您現在可以將其應用於新的數據框並手動編輯您可能想要的任何列。

from pyspark.sql.types import StructType

schema = [i for i in df.schema]

然后從這里開始，您有了新的架構：

NewSchema = StructType(schema)

Answer 4

如果您正在尋找來自 PySpark 的 DDL 字符串：

df: DataFrame = spark.read.load('LOCATION')
schema_json = df.schema.json()
ddl = spark.sparkContext._jvm.org.apache.spark.sql.types.DataType.fromJson(schema_json).toDDL()

如何從 PySpark 中的數據幀獲取模式定義？

問題描述

4 個解決方案

解決方案1
27 已采納

解決方案2
6 2019-02-03 15:08:50

解決方案3
5 2020-02-09 20:06:07

解決方案4
1 2020-12-14 15:58:21

如何從 PySpark 中的數據幀獲取模式定義？

問題描述

4 個解決方案

解決方案1 27 已采納

解決方案2 6 2019-02-03 15:08:50

解決方案3 5 2020-02-09 20:06:07

解決方案4 1 2020-12-14 15:58:21

解決方案1
27 已采納

解決方案2
6 2019-02-03 15:08:50

解決方案3
5 2020-02-09 20:06:07

解決方案4
1 2020-12-14 15:58:21