在 where 子句 pyspark 中使用正則表達式加入 2 個數據幀

Question

我們有兩個數據框

df = spark.createDataFrame([
        (1, 'Nick', 'Miller'),
        (2, 'Jessica', 'Day'),
        (3, 'Winston', 'Schmidt'),
       ], ['id', 'First_name', 'Last_name'])

df1 = spark.createDataFrame([ (1, '^[a-lA-L]', 'type1'), (3, '^[m-zM-Z]', 'type2')], ['id', 'regex_match', 'vaule']

需要加入這兩個dataframe，其中df1.regex_match與df.Last_name匹配

需要 output 如下：任何建議請：

join df to df1 using left join

Answer 1

您可以使用rlike條件加入：

import pyspark.sql.functions as F

result = df.alias('df').join(
    df1.drop('id').alias('df1'),
    F.expr('df.Last_name rlike df1.regex_match'),
    'left'
).drop('regex_match')

result.show()
+---+----------+---------+-----+
| id|First_name|Last_name|vaule|
+---+----------+---------+-----+
|  1|      Nick|   Miller|type2|
|  2|   Jessica|      Day|type1|
|  3|   Winston|  Schmidt|type2|
+---+----------+---------+-----+

在 where 子句 pyspark 中使用正則表達式加入 2 個數據幀

問題描述

1 個解決方案

解決方案1
1 2021-02-03 16:53:07

在 where 子句 pyspark 中使用正則表達式加入 2 個數據幀

問題描述

1 個解決方案

解決方案1 1 2021-02-03 16:53:07

解決方案1
1 2021-02-03 16:53:07