Python / Regex-匹配。＃，＃。在字符串中

Question

我可以使用什么正則表達式來匹配“。＃，＃”。 在字符串中。 字符串中可能存在也可能不存在。 預期輸出的一些示例可能是：

Test1.0,0.csv      -> ('Test1', '0,0', 'csv')         (Basic Example)
Test2.wma          -> ('Test2', 'wma')                (No Match)
Test3.1100,456.jpg -> ('Test3', '1100,456', 'jpg')    (Basic with Large Number)
T.E.S.T.4.5,6.png  -> ('T.E.S.T.4', '5,6', 'png')     (Doesn't strip all periods)
Test5,7,8.sss      -> ('Test5,7,8', 'sss')            (No Match)
Test6.2,3,4.png    -> ('Test6.2,3,4', 'png')          (No Match, to many commas)
Test7.5,6.7,8.test -> ('Test7', '5,6', '7,8', 'test') (Double Match?)

最后一個不是太重要，我只希望那個。＃，＃。 將出現一次。 我正在處理的大多數文件都屬於第一個到第四個示例，因此我對這些文件最感興趣。

謝謝您的幫助！

Answer 1

您可以使用正則表達式\\.\\d+,\\d+\\. 找到該模式的所有匹配項，但是您將需要做一些額外的工作才能獲得期望的輸出，尤其是因為您要處理.5,6.7,8. 作為兩次比賽。

這是一個潛在的解決方案：

def transform(s):
    s = re.sub(r'(\.\d+,\d+)+\.', lambda m: m.group(0).replace('.', '\n'), s)
    return tuple(s.split('\n'))

例子：

>>> transform('Test1.0,0.csv')
('Test1', '0,0', 'csv')
>>> transform('Test2.wma')
('Test2.wma',)
>>> transform('Test3.1100,456.jpg')
('Test3', '1100,456', 'jpg')
>>> transform('T.E.S.T.4.5,6.png')
('T.E.S.T.4', '5,6', 'png')
>>> transform('Test5,7,8.sss')
('Test5,7,8.sss',)
>>> transform('Test6.2,3,4.png')
('Test6.2,3,4.png',)
>>> transform('Test7.5,6.7,8.test')
('Test7', '5,6', '7,8', 'test')

要在沒有匹配項時分離文件擴展名，可以使用以下命令：

def transform(s):
    s = re.sub(r'(\.\d+,\d+)+\.', lambda m: m.group(0).replace('.', '\n'), s)
    groups = s.split('\n')
    groups[-1:] = groups[-1].rsplit('.', 1)
    return tuple(groups)

除了'Test2.wma'變為('Test2', 'wma')之外，這與上面的輸出相同，對於'Test5,7,8.sss'和'Test5,7,8.sss'具有相似的行為。

Answer 2

要允許多個連續匹配，請使用超前/后退：

r'(?<=\.)\d+,\d+(?=\.)'

例：

>>> re.findall(r'(?<=\.)\d+,\d+(?=\.)', 'Test7.5,6.7,8.test')
['5,6', '7,8']

我們還可以根據需要使用超前執行拆分：

import re
def split_it(s):
    pieces = re.split(r'\.(?=\d+,\d+\.)', s)
    pieces[-1:] = pieces[-1].rsplit('.', 1) # split off extension
    return pieces

測試：

>>> print split_it('Test1.0,0.csv')
['Test1', '0,0', 'csv']
>>> print split_it('Test2.wma')
['Test2', 'wma']
>>> print split_it('Test3.1100,456.jpg')
['Test3', '1100,456', 'jpg']
>>> print split_it('T.E.S.T.4.5,6.png')
['T.E.S.T.4', '5,6', 'png']
>>> print split_it('Test5,7,8.sss')
['Test5,7,8', 'sss']
>>> print split_it('Test6.2,3,4.png')
['Test6.2,3,4', 'png']
>>> print split_it('Test7.5,6.7,8.test')
['Test7', '5,6', '7,8', 'test']

Answer 3

使用正則表達式模式^([^,]+)\\.(\\d+,\\d+)\\.([^,.]+)$

查看此演示 >>

>>> print re.findall(r'^([^,]+)\.(\d+,\d+)\.([^,.]+)$', 'Test1.0,0.csv')
[('Test1', '0,0', 'csv')]

>>> print re.findall(r'^([^,]+)\.(\d+,\d+)\.([^,.]+)$', 'Test2.wma')
[]

>>> print re.findall(r'^([^,]+)\.(\d+,\d+)\.([^,.]+)$', 'Test3.1100,456.jpg')
[('Test3', '1100,456', 'jpg')]

>>> print re.findall(r'^([^,]+)\.(\d+,\d+)\.([^,.]+)$', 'T.E.S.T.4.5,6.png')
[('T.E.S.T.4', '5,6', 'png')]

>>> print re.findall(r'^([^,]+)\.(\d+,\d+)\.([^,.]+)$', 'Test5,7,8.sss')
[]

>>> print re.findall(r'^([^,]+)\.(\d+,\d+)\.([^,.]+)$', 'Test6.2,3,4.png')
[]

>>> print re.findall(r'^([^,]+)\.(\d+,\d+)\.([^,.]+)$', 'Test7.5,6.7,8.test') 
[]

Answer 4

'/^(.+)\.((\d+,\d+)\.)?(.+)$/'

第三捕獲組應包含一對數字。 如果您有多個配對，則應該獲得多個匹配項。 並且第三次捕獲將始終包含該對。

Answer 5

^(.*?)\.(\d+,\d+)\.(.*?)$

這至少在模式中通過了您的測試：

通過模式中的測試

Answer 6

這非常接近，python是否支持命名組？

^.*(?P<group1>\d+(?:,\d+)?)\.(?P<group2>\d+(?:,\d+)?).*\..+$

Python / Regex-匹配。＃，＃。在字符串中

問題描述

6 個解決方案

解決方案1
4 2012-09-26 18:41:34

解決方案2
3 已采納 2012-09-26 18:45:41

解決方案3
0 2012-09-26 18:38:53

解決方案4
0 2012-09-26 18:40:37

解決方案5
0 2012-09-26 18:41:14

解決方案6
0 2012-09-26 18:44:19

Python / Regex-匹配。＃，＃。 在字符串中

問題描述

6 個解決方案

解決方案1 4 2012-09-26 18:41:34

解決方案2 3 已采納 2012-09-26 18:45:41

解決方案3 0 2012-09-26 18:38:53

解決方案4 0 2012-09-26 18:40:37

解決方案5 0 2012-09-26 18:41:14

解決方案6 0 2012-09-26 18:44:19

Python / Regex-匹配。＃，＃。在字符串中

解決方案1
4 2012-09-26 18:41:34

解決方案2
3 已采納 2012-09-26 18:45:41

解決方案3
0 2012-09-26 18:38:53

解決方案4
0 2012-09-26 18:40:37

解決方案5
0 2012-09-26 18:41:14

解決方案6
0 2012-09-26 18:44:19