繁体   English   中英

如何在 Spark SQL 中执行正则表达式

[英]How to do regEx in Spark SQL

我必须创建一个数据框,其中一列中的行应该是我从长 URL 中提取的名称。 假设我有以下网址:

https://xxx.xxxxxx.com/xxxxx/y...y/?...?/<irrelevant>

现在不幸的是,我不能透露确切的 URL,但我可以说的是,字母x包含不变的字符串(即数据库中的所有 URL 都包含这些模式并且是已知的), y...y是一个未知长度的未知用户名,可能会随着每个 URL 和?...? 是我感兴趣的名称(又是一个长度未知的字符串)。 之后可能会有多个由/分隔的字符串,这些字符串没有用。 我该怎么做? 到目前为止,我曾经做过三种不同的 UDF,它们使用子字符串和索引,但我认为这是一个非常麻烦的解决方案。

我对 Regex 或 Spark SQL 不是很熟悉,所以即使只是 regex 也会很有用。

谢谢

编辑:我想我搞定了正则表达式,现在我只需要找出如何使用它。

https:\/\/xxx\.xxxxxx\.com\/xxxxx\/(?:[^0-9\/]+)\/([a-zA-z]*)

我对你的正则表达式做了一些修改。 正则表达式:

^https:\/\/www\.example\.com\/user=\/(.*?)\/(.*?)(?:\/.*|$)$

它将捕获两组:

  • 第一组 - 用户名
  • 第二组 - 一些名字

您可以使用regexp_extract spark 函数来选择正则表达式捕获组。 例如

import spark.implicits._
import org.apache.spark.sql.functions.regexp_extract

val df = Seq(
    ("https://www.example.com/user=/username1/name3/asd"),
    ("https://www.example.com/user=/username2/name2"),
    ("https://www.example.com/user=/username3/name1/asd"),
    ("https://www.example.com/user=")
).toDF("url")

val r = "^https:\\/\\/www\\.example\\.com\\/user=\\/(.*?)\\/(.*?)(?:\\/.*|$)$"

df.select(
    $"url",
    regexp_extract($"url", r, 1).as("username"),
    regexp_extract($"url", r, 2).as("name")
).show(false)

结果:

+-------------------------------------------------+---------+-----+
|url                                              |username |name |
+-------------------------------------------------+---------+-----+
|https://www.example.com/user=/username1/name3/asd|username1|name3|
|https://www.example.com/user=/username2/name2    |username2|name2|
|https://www.example.com/user=/username3/name1/asd|username3|name1|
|https://www.example.com/user=                    |         |     | <- not correct url
+-------------------------------------------------+---------+-----+

PS 您可以使用 regex101.com 来验证您的正则表达式

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM