繁体   English   中英

带有正则表达式的 Python 分区字符串

[英]Python partition string with regular expressions

我正在尝试使用 Python 的分区和正则表达式清理文本字符串。 例如:

testString = 'Tre Bröders Väg 6 2tr'
sep = '[0-9]tr'
head,sep,tail = testString.partition(sep)
head
>>>'Tre Br\xc3\xb6ders V\xc3\xa4g 6 2tr'

头部仍然包含我要删除的2tr 我不太擅长正则表达式,但 [0-9] 不应该这样做吗?

我期望从这个例子中得到的输出是

head
>>> 'Tre Br\xc3\xb6ders V\xc3\xa4g 6

str.partition不支持正则表达式,因此当你给它一个像'[0-9]tr'这样的字符串时,它试图在testString找到基于的精确字符串,它不使用任何正则表达式。

根据str.partition文件 -

在第一次出现sep时拆分字符串,并返回包含分隔符之前的部分的3元组,分隔符本身以及分隔符之后的部分。 如果找不到分隔符,则返回包含字符串本身的3元组,后跟两个空字符串。

既然你说,你只需要head ,你可以使用re模块中的re.split()方法,将maxsplit设置为1 ,然后获取它的第一个元素,它应该与你在str.partition中尝试的str.partition 示例 -

import re
testString = 'Tre Bröders Väg 6 2tr'
sep = '[0-9]tr'
head = re.split(sep,testString,1)[0]

演示 -

>>> import re
>>> testString = 'Tre Bröders Väg 6 2tr'
>>> sep = '[0-9]tr'
>>> head = re.split(sep,testString,1)[0]
>>> head
'Tre Bröders Väg 6 '

普通的re.split()方法

您可以使用re.split()提取head

import re

testString = 'Tre Bröders Väg 6 2tr'
sep = r'[0-9]tr'  # "r" is essential here!
head, tail = re.split(sep, testString)
head.strip()
>>>'Tre Bröders Väg 6'

巧克力洒re.split()方法

如果你用()捕获sepre.split()行为就像一个伪re.partition() (在 Python 中没有这样的方法,实际上......)

import re

testString = 'Tre Bröders Väg 6 2tr'
sep = r'([0-9]tr)'  # "()" added.
head, sep, tail = re.split(sep, testString)
head, sep, tail
>>>('Tre Bröders Väg 6 ', '2tr', '')

对于那些仍在寻找如何进行正则表达式分区的答案的人,请尝试以下函数:

import regex # re also works

def regex_partition(content, separator):
    separator_match = regex.search(separator, content)
    if not separator_match:
        return content, '', ''

    matched_separator = separator_match.group(0)
    parts = regex.split(matched_separator, content, 1)

    return parts[0], matched_separator, parts[1]

我来到这里是为了寻找一种使用基于正则表达式的partition()

包含在yelichi answer 中,如果re.split()包含捕获组,则可以返回分隔符,因此基于正则表达式创建分区函数的最基本方法是:

re.split( "(%s)" % sep, testString, 1)

但是,这只适用于简单的正则表达式。 如果您通过使用组的正则表达式进行拆分(即使未捕获),它也不会提供预期的结果。

我首先查看了在skia.heliou answer 中提供的函数,但它不必要地第二次运行正则表达式,更重要的是,如果模式与自身不匹配,则会失败(它应该在matched_separator 上使用string.split,而不是re.split) .

因此,我实现了自己的支持正则表达式的 partition() 版本:

def re_partition(pattern, string, return_match=False):
    '''Function akin to partition() but supporting a regex
    :param pattern: regex used to partition the content
    :param content: string being partitioned
    '''

    match = re.search(pattern, string)

    if not match:
        return string, '', ''

    return string[:match.start()], match if return_match else match.group(0), string[match.end():]

作为附加功能,这可以返回匹配对象本身,而不仅仅是匹配的字符串。 这允许您直接与分隔符的组进行交互。

并以迭代器形式:

def re_partition_iter(pattern, string, return_match=False):
    '''Returns an iterator of re_partition() output'''

    pos = 0
    pattern = re.compile(pattern)
    while True:
        match = pattern.search(string, pos)
        if not match:
            if pos < len(string):  # remove this line if you prefer to receive an empty string
                yield string[pos:]
            break

        yield string[pos:match.start()]
        yield match if return_match else match.group(0)
        pos = match.end()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM