使用 SQL 从字符串中提取 Substring

Question

我在雪花表 xyz 中有一列“正文”，其中包含正在订购的产品。 “正文”字段由三部分组成。
第一部分：产品名称（例如：Beta、Tiger、Tiger White Stone）

第二部分：性别 M 或 W 和

第三部分是内部产品命名（例如：yy | Tz、zz | Ox、Dash 和 Pearl）。

我想在名为性别的单独列中提取 M 和 W，以了解我有多少男性和女性客户。

预计 output：

我尝试使用拆分 function 但我觉得这不是一种有效的方法。 有没有更好的方法来实现这个？

Answer 1

因为字符串的“部分”可以包含空格，所以使用空格来查找第二部分可能不可靠。 我将假设您正在寻找的模式是“ M ”和“ W ”，但显然如果这些模式可以存在于第一部分或第三部分中，这将不起作用。

尝试这个：

CASE WHEN POSITION(' M ', BODY) > 0 THEN 'M'
     WHEN POSITION(' W ', BODY) > 0 THEN 'W'
     ELSE 'X' END

Answer 2

另一种选择是使用 Snowflake REGEXP_SUBSTR函数，其正则表达式匹配第三个定义组之前的单个字符：

SELECT REGEXP_SUBSTR(Body, ' ([A-Z]) [\\w\\-]+$', 1, 1, 'e') AS Gender
FROM tab

正则表达式寻找：

三个参数1, 1, 'e'代表：

它解决了你的问题吗？