PySpark DataFrame - 過濾器嵌套列

Question

我知道那里有很多類似的問題，但我還沒有找到任何與我的場景完全匹配的問題，所以請不要對 Duplicate 標志感到太高興。 我正在使用 Spark 3.0.1 的 Azure Databricks 中的 Python 3 筆記本電腦工作。

我有以下 DataFrame

+---+---------+--------+
|ID |FirstName|LastName|
+---+---------+--------+
|1  |John     |Doe     |
|2  |Michael  |        |
|3  |Angela   |Merkel  |
+---+---------+--------+

可以使用此代碼創建

from pyspark.sql.types import StructType,StructField, StringType, IntegerType
import pyspark.sql.functions as F

data2 = [(1,"John","Doe"),
    (2,"Michael",""),
    (3,"Angela","Merkel")
  ]

schema = StructType([ \
    StructField("ID",IntegerType(),True), \
    StructField("FirstName",StringType(),True), \
    StructField("LastName",StringType(),True), \
  ])
 
df1 = spark.createDataFrame(data=data2,schema=schema)
df1.printSchema()
df1.show(truncate=False)

我把它變成這個 DataFrame

+---+-----------------------------------------+
|ID |Names                                    |
+---+-----------------------------------------+
|1  |[[FirstName, John], [LastName, Doe]]     |
|2  |[[FirstName, Michael], [LastName, ]]     |
|3  |[[FirstName, Angela], [LastName, Merkel]]|
+---+-----------------------------------------+

使用此代碼

df2 = df1.select(
            'ID', 
            F.array(
                F.struct(
                    F.lit('FirstName').alias('NameType'), 
                    F.col('FirstName').alias('Name')
                ), 
                F.struct(
                    F.lit('LastName').alias('NameType'), 
                    F.col('LastName').alias('Name')
                )
            ).alias('Names')
        )

df2.printSchema()
df2.show(truncate=False)

現在，我正在嘗試過濾出LastName為Names或為空字符串的名稱。 我的總體目標是擁有一個可以在 json 中序列化的 object，其中排除了具有空Names值的Name 。

像這樣

[
    {
        "ID": 1,
        "Names": [
            {
                "NameType": "FirstName",
                "Name": "John"
            },
            {
                "NameType": "LastName",
                "Name": "Doe"
            }
        ]
    },
    {
        "ID": 2,
        "Names": [
            {
                "NameType": "FirstName",
                "Name": "Michael"
            }
        ]
    },
    {
        "ID": 3,
        "Names": [
            {
                "NameType": "FirstName",
                "Name": "Angela"
            },
            {
                "NameType": "LastName",
                "Name": "Merkel"
            }
        ]
    }
]

我努力了

df2 = df1.select(
            'ID', 
            F.array(
                F.struct(
                    F.lit('FirstName').alias('NameType'), 
                    F.col('FirstName').alias('Name')
                ), 
                F.struct(
                    F.lit('LastName').alias('NameType'), 
                    F.col('LastName').alias('Name')
                )
            ).filter(lambda x: x.col('LastName').isNotNull()).alias('Names')
        )

但我收到錯誤'Column' object is not callable 。

我也試過df2 = df2.filter(F.col('Names')['LastName']) > 0)但這給了我一個invalid syntax錯誤。

我努力了

df2 = df2.filter(lambda x: (len(x)>0), F.col('Names')['LastName'])

但這給出了錯誤TypeError: filter() takes 2 positional arguments but 3 were given 。

有人可以告訴我如何讓它工作嗎？

Answer 1

您可以使用高階 function filter ：

import pyspark.sql.functions as F

df3 = df2.withColumn(
    'Names', 
    F.expr("filter(Names, x -> case when x.NameType = 'LastName' and length(x.Name) = 0 then false else true end)")
)

df3.show(truncate=False)
+---+-----------------------------------------+
|ID |Names                                    |
+---+-----------------------------------------+
|1  |[[FirstName, John], [LastName, Doe]]     |
|2  |[[FirstName, Michael]]                   |
|3  |[[FirstName, Angela], [LastName, Merkel]]|
+---+-----------------------------------------+

PySpark DataFrame - 過濾器嵌套列

問題描述

1 個解決方案

解決方案1
5 已采納 2021-03-16 18:24:51

PySpark DataFrame - 過濾器嵌套列

問題描述

1 個解決方案

解決方案1 5 已采納 2021-03-16 18:24:51

解決方案1
5 已采納 2021-03-16 18:24:51