pyspark字符串匹配多个精确单词正则表达式的高效方式

Question

有一个 pyspark 数据框，其中一列title都是字符串。 需要找到包含以下任何单词列表['Cars','Car','Vehicle','Vehicles'] 。 需要过滤以仅从该列表中查找仅包含单词的行。 这样做的一种方法是：

filter_1 = "title like '%{}' or title like '%{}' or title like '%{}' or title like '%{}'"\
    .format('Car','Cars','Vehicle','Vehicles')
    
df1 = df.filter(filter_1).select('id','title')

这不是一种简洁的写作方式。 尝试使用正则表达式：

df2 = df.where('title rlike "\bCars?\b|\bVehicles?\b"').select('id','title')

只需要匹配精确的单词，如“Car”而不是“sCar”或“Carry”。 但 df2 是空的。

还尝试了如何有效地检查 Spark 数据帧中是否包含单词列表？ 还有一些额外的字符串，如“sCar”或“Carry”。 有什么建议么？

Answer 1

使用 where 过滤 df。 为此，请使用|加入搜索词|

s='|'.join(["(" + c +")" for c in l])
df.where(df['title'].rlike(s)).show()

pyspark字符串匹配多个精确单词正则表达式的高效方式

问题描述

1 个解决方案

解决方案1
0 2021-07-20 01:47:50

pyspark字符串匹配多个精确单词正则表达式的高效方式

问题描述

1 个解决方案

解决方案1 0 2021-07-20 01:47:50

解决方案1
0 2021-07-20 01:47:50