在 pyspark dataframe 中過濾一個數組

Question

星火版本：2.3.0

我有一個 PySpark dataframe 有一個數組列，我想通過應用一些字符串匹配條件來過濾數組元素。 例如：如果我有這樣的 dataframe

       Array Col
['apple', 'banana', 'orange']
['strawberry', 'raspberry']
['apple', 'pineapple', 'grapes']

我想過濾每個數組中包含字符串“apple”或以“app”開頭的元素等。我將如何在 PySpark 中實現這一點？

有人能告訴我如何在 pyspark 中實現它嗎？

Answer 1

您可以使用 spark 2.4+ 中的高階函數：

df.withColumn("Filtered_Col",F.expr(f"filter(Array_Col,x -> x rlike '^(?i)app' )")).show()

+--------------------------+------------+
|Array_Col                 |Filtered_Col|
+--------------------------+------------+
|[apple, banana, orange]   |[apple]     |
|[strawberry, raspberry]   |[]          |
|[apple, pineapple, grapes]|[apple]     |
+--------------------------+------------+

對於較低版本，您可能適合使用 udf：

import re
def myf(v):
  l=[]
  for i in v:
    if bool(re.match('^(?i)app',i)):
      l.append(i)
  return l
myudf = F.udf(myf,T.ArrayType(T.StringType()))
df.withColumn("Filtered_Col",myudf("Array_Col")).show()

Answer 2

您可以將filter與exist結合使用，它屬於高階函數，它將檢查數組中的任何元素是否包含word

另一種方法是 UDF -

數據准備

sparkDF = sql.createDataFrame([(['apple', 'banana', 'orange'],),
                               (['strawberry', 'raspberry'],),
                               (['apple', 'pineapple', 'grapes'],)
                              ]
                              ,['arr_column']
                             )


sparkDF.show(truncate=False)

+--------------------------+
|arr_column                |
+--------------------------+
|[apple, banana, orange]   |
|[strawberry, raspberry]   |
|[apple, pineapple, grapes]|
+--------------------------+

過濾 & 存在 >= Spark 2.4

starts_with_app = lambda s: s.startswith("app")

sparkDF_filtered = sparkDF.filter(F.exists(F.col("arr_column"), starts_with_app))

sparkDF_filtered.show(truncate=False)

+--------------------------+
|arr_column                |
+--------------------------+
|[apple, banana, orange]   |
|[apple, pineapple, grapes]|
+--------------------------+

UDF - 低版本

def filter_string(inp):
    
    res = []
    
    for s in inp:
        if s.startswith("app"):
            res += [s]
    if res:
        return res
    else:
        return None

filter_string_udf = F.udf(lambda x: filter_string(x),ArrayType(StringType()))

sparkDF_filtered = sparkDF.withColumn('arr_filtered',filter_string_udf(F.col('arr_column')))\
                          .filter(F.col('arr_filtered').isNotNull())

sparkDF_filtered.show(truncate=False)

+--------------------------+------------+
|arr_column                |arr_filtered|
+--------------------------+------------+
|[apple, banana, orange]   |[apple]     |
|[apple, pineapple, grapes]|[apple]     |
+--------------------------+------------+

在 pyspark dataframe 中過濾一個數組

問題描述

2 個解決方案

解決方案1
4 2021-10-01 14:26:12

解決方案2
3 已采納 2021-10-01 14:34:10

數據准備

過濾 & 存在 >= Spark 2.4

UDF - 低版本

在 pyspark dataframe 中過濾一個數組

問題描述

2 個解決方案

解決方案1 4 2021-10-01 14:26:12

解決方案2 3 已采納 2021-10-01 14:34:10

數據准備

過濾 & 存在 >= Spark 2.4

UDF - 低版本

解決方案1
4 2021-10-01 14:26:12

解決方案2
3 已采納 2021-10-01 14:34:10