重组 Pyspark 数据框：使用行元素创建新列

Question

我正在尝试将具有此结构的文档映射到数据框。

   root
     |-- Id: "a1"
     |-- Type: "Work"
     |-- Tag: Array
     |    |--0: Object 
     |    |   |-- Tag.name : "passHolder"
     |    |   |-- Tag.value : "Jack Ryan"
     |    |   |-- Tag.stat : "verified"
     |    |-- 1: Object
     |    |   |-- Tag.name : "passNum"
     |    |   |-- Tag.value : "1234"
     |    |   |-- Tag.stat : "unverified"
     |-- version: 1.5

通过使用explode_outer数组、展平结构并使用.col + alias重命名，数据框将如下所示：

df = df.withColumn("Tag",F.explode_outer("Tag"))
df = df.select(col("*"), 
       .col("Tag.name").alias("Tag_name"),
       .col("Tag.value").alias("Tag_value"),
       .col("Tag.stat").alias("Tag_stat")).drop("Tag")

+--+----+-----------+-----------+---------+---------+
|Id|Type| Tag_name  | Tag_value |Tag_stat | version |
+--+----+-----------+-----------+---------+---------+
 a1 Work  passHolder  Jack Ryan  verified       1.5
 a1 Work  passNum      1234      unverified     1.5

我正在尝试通过将某些行元素作为列名并用相关值填充它来重新组织 df 结构，使其更具查询能力。 任何人都可以帮助提供达到所需输出格式所需的指示/步骤，如下所示？ 非常感谢您的建议。

目标格式：

+--+----+-----------------+-----------------+-------------+------------+--------+
|Id|Type| Tag_passHolder  | passHolder_stat | Tag_passNum |passNum_stat||version|
+--+----+-----------------+-----------------+-------------+------------+--------+
 a1 Work   Jack Ryan          verified           1234       unverified     1.5

Answer 1

根据您显示的输出 df，我会执行以下操作：

from pyspark.sql import functions as F

passholder_df = df.select(
    "ID",
    "Type",
    F.col("Tag_value").alias("Tag_passHolder"),
    F.col("Tag_stat").alias("passHolder_stat"),
    "version",
).where("Tag_name = 'passHolder'")

passnum_df = df.select(
    "ID",
    "Type",
    F.col("Tag_value").alias("Tag_passNum"),
    F.col("Tag_stat").alias("passNum_stat"),
    "version",
).where("Tag_name = 'passNum'")

passholder_df.join(passnum_df, on=["ID", "Type", "version"], how="full")

根据您的业务规则，您可能需要在连接条件上做一些工作。

重组 Pyspark 数据框：使用行元素创建新列

问题描述

1 个解决方案

解决方案1
0 已采纳 2020-10-23 13:04:32

重组 Pyspark 数据框：使用行元素创建新列

问题描述

1 个解决方案

解决方案1 0 已采纳 2020-10-23 13:04:32

解决方案1
0 已采纳 2020-10-23 13:04:32