使用带字符串的正则表达式拆分系列成员

Question

大约一周前，我问了一个类似的问题，并试图将代码弄乱以适应不同的目的，但似乎无法使其正常工作。

我想使用月份缩写作为分隔符来分割字符串（因此，我需要使用JAN，FEB，MAR，APR，MAY，JUNE等）

我尝试使用

df['a'] = [re.split(r'[JUNE|JULY]+', x) for x in df['a']

以及对此的一些变化.group(0)在for x之前添加.group(0) ）

我猜我的问题是分隔符的语法。 查看正则表达式的文档，我应该能够将字符串用作分隔符，但只能使用re.search找到一种方法。

也尝试过

df['a'] = [re.split[(('JUNE', 'JULY'), x).group(0) for x in df['a']]

该系列中的数据如下所示：

df['a'] = ['ABCJUNE123', 'DEFJULY456', 'DEGJUNE765', 'DEFJUNE345']

而且我要：

df['a'] = ['ABC', 'DEF', 'DEG', 'DEF']

我的表情中缺少什么？

Answer 1

您的正则表达式将是

r'JUNE|JULY'

例：

>>> re.split(r'JUNE|JULY', 'ABCJUNE123')
['ABC', '123']

[JUNE|JULY]+正则表达式不代表JUNE或JULY 。