匹配雙引號字符串和雙引號

Question

我有這個python字符串：

string = '"/dev/null" "" "19/1333329478.9381399" 0 1 "cam-foo" 64 900.0 "Foo x rev scan of test" "/usr/bin/env ""PATH=/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:$PATH"" python app.py" 60.145855 2.034689'

我需要一個正則表達式為我提供此字符串中每個元素的列表。 元素：雙引號中包含的任何數字或任何字符串。 字符串可以包含雙引號。

我已經提出了這個正則表達式：

import re    
p = re.compile(r'"[^"]*"|[-\.\d]+')
p.findall(string)
['"/dev/null"', '""', '"19/1333329478.9381399"', '0', '1', '"cam-foo"', '64', '900.0', '"Foo x rev scan of test"', '"/usr/bin/env "', '"PATH=/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:$PATH"', '" python app.py"', '60.145855', '2.034689']

如您所見，我想念字符串中雙引號的部分。 元素內的雙引號應忽略。 我想要這樣的結果：

['"/dev/null"', '""', '"19/1333329478.9381399"', '0', '1', '"cam-foo"', '64', '900.0', '"Foo x rev scan of test"', '"/usr/bin/env ""PATH=/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:$PATH"" python app.py"', '60.145855', '2.034689']

而是擁有3個（或更多）元素

[..., '"/usr/bin/env "', '"PATH=/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:$PATH"', '" python app.py"', ...]

我只想要一個元素：

'"/usr/bin/env ""PATH=/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:$PATH"" python app.py"'

有人可以幫幫我嗎？

Answer 1

正則表達式的前半部分當前與一對雙引號匹配，該雙引號圍繞零個或多個非雙引號字符。

r'"[^"]*"'

您可以通過更改在雙引號內匹配的字符串來獲得所需的結果。

r'"(?:[^"]|"")*"'

此正則表達式匹配圍繞零個或多個字符串的一對雙引號； 每個字符串必須包含一個非雙引號字符或兩個連續的雙引號。 （ ?:將帶括號的位標記為非捕獲組；否則Python將僅返回括號內的位。）

讓我們將其插入完整的正則表達式中：

% python
Python 2.7.2 (default, Mar 20 2012, 13:27:18) 
[GCC 4.2.1 Compatible Apple Clang 3.1 (tags/Apple/clang-318.0.54)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> s = '"/dev/null" "" "19/1333329478.9381399" 0 1 "cam-foo" 64 900.0 "Foo x rev scan of test" "/usr/bin/env ""PATH=/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:$PATH"" python app.py" 60.145855 2.034689'
>>> for el in re.findall(r'"(?:[^"]|"")*"|[-\.\d]+', s): print(el)
... 
"/dev/null"
""
"19/1333329478.9381399"
0
1
"cam-foo"
64
900.0
"Foo x rev scan of test"
"/usr/bin/env ""PATH=/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:$PATH"" python app.py"
60.145855
2.034689
>>>

Answer 2

您可以使用csv模塊。

例

>>> import csv
>>> from pprint import pprint
>>> pprint(list(csv.reader([string], delimiter=' ', quotechar='"')))
[
[
'/dev/null'
,
''
,
'19/1333329478.9381399'
,
'0'
,
'1'
,
'cam-foo'
,
'64'
,
'900.0'
,
'Foo x rev scan of test'
,
'/usr/bin/env "PATH=/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:$PATH" python app.py'
,
'60.145855'
,
'2.034689'
]
]

Answer 3

如果您只需要能夠分割此精確的大小寫，則可以使用shlex.split() ：

>>> import shlex
>>> s = '"/dev/null" "" "19/1333329478.9381399" 0 1 "cam-foo" 64 900.0 "Foo x rev scan of test" "/usr/bin/env ""PATH=/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:$PATH"" python app.py" 60.145855 2.034689'
>>> shlex.split(s)
['/dev/null', '', '19/1333329478.9381399', '0', '1', 'cam-foo', '64', '900.0', 'Foo x rev scan of test', '/usr/bin/env PATH=/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:$PATH python app.py', '60.145855', '2.034689']
>>> shlex.split(s)[-3]
'/usr/bin/env PATH=/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:$PATH python app.py'

它不是正則表達式，但每次都會為您解決這個確切的問題。

Answer 4

將正則表達式搜索令牌括在（）中。 發生的事情是，re不會為每個發現返回一個列表。 選擇正確的數組元素。 例如：

m = p.findall(string)

將返回一個以m表示的列表，根據（）中包含的內容，該列表的每個元素再次是標記化列表。 這樣，您可以檢索所需語句的確切部分。

匹配雙引號字符串和雙引號

問題描述

4 個解決方案

解決方案1
3 2012-04-02 19:32:48

解決方案2
3 已采納 2012-04-02 19:55:27

例

解決方案3
1 2012-04-02 19:43:04

解決方案4
0 2012-04-02 18:25:11

匹配雙引號字符串和雙引號

問題描述

4 個解決方案

解決方案1 3 2012-04-02 19:32:48

解決方案2 3 已采納 2012-04-02 19:55:27

例

解決方案3 1 2012-04-02 19:43:04

解決方案4 0 2012-04-02 18:25:11

解決方案1
3 2012-04-02 19:32:48

解決方案2
3 已采納 2012-04-02 19:55:27

解決方案3
1 2012-04-02 19:43:04

解決方案4
0 2012-04-02 18:25:11