Python正則表達式意外行為

Question

str1='<a href="/states/florida/433" title="florida"><img alt="florida" src="http://abc.com"'
str2='<a href="/states/florida/433" title="florida">'
pat = re.compile('/states/.*/([^"]+)')
if ( pat.findall(str2) == pat.findall(str1)):
    print "TRUE"
else:
    print "FALSE"

輸出：FALSE，

輸出2：433
輸出1：abc.com

有人可以解釋嗎？

Answer 1

使用勉強的量詞- .*? ，而不是貪婪的- .* ，一切都會好起來的：-

pat = re.compile('/states/.*?/([^"]+)')

默認情況下，量詞是greedy ，從某種意義上說，它們試圖覆蓋盡可能多的字符串，並且仍然保留模式的其余部分以匹配其余的字符串。 使用? 在量詞變得不願意之后 ，在這種情況下，它們將在下一個字符的第一個匹配項- /處停止。

Answer 2

在第一個URL上，您的regexp與整個字符串匹配：

<a href="/states/florida/433" title="florida"><img alt="florida" src="http://abc.com
         /states/                                .*                         /([^"]+)

並不是

<a href="/states/florida/433" title="florida"><img alt="florida" src="http://abc.com
         /states/ .*   /([^"])+

他們很貪婪， .*吃掉盡可能多的數據。

Answer 3

您的RegEx正常工作：

<a href="/states/florida/433" title="florida"><img alt="florida" src="http://abc.com"
         ^^^^^^^^............................................................^^^^^^^
         /states/                      .*/                                     [^"]+

和：

<a href="/states/florida/433" title="florida">
         ^^^^^^^^........^^^

如果您不想在第一種情況下使用整個字符串，請使用? ，非貪婪匹配量詞表示“ /states/后跟任意數量的字符，直到第一個 /后跟一個或多個非引號字符”

Answer 4

您是貪婪的模式（您可以在以下位置閱讀有關貪婪和非貪婪正則表達式模式的信息： http : //docs.python.org/2/library/re.html以及此處： http : //www.itworld.com/nl / perl / 01112001。更改模式

'/states/.*/([^"]+)'

至

'/states/.*/([^"]+)'

返回true。 這是完整的修改源：

import re

str1='<a href="/states/florida/433" title="florida"><img alt="florida" src="http://abc.com"'
str2='<a href="/states/florida/433" title="florida">'
pat = re.compile('/states/.*?/([^"]+)')
if ( pat.findall(str2) == pat.findall(str1)):
    print "TRUE"
else:
    print "FALSE"

Python正則表達式意外行為

問題描述

4 個解決方案

解決方案1
3 已采納 2013-01-30 18:35:48

解決方案2
1 2013-01-30 18:36:05

解決方案3
1 2013-01-30 18:39:01

解決方案4
0 2013-01-30 18:51:06

Python正則表達式意外行為

問題描述

4 個解決方案

解決方案1 3 已采納 2013-01-30 18:35:48

解決方案2 1 2013-01-30 18:36:05

解決方案3 1 2013-01-30 18:39:01

解決方案4 0 2013-01-30 18:51:06

解決方案1
3 已采納 2013-01-30 18:35:48

解決方案2
1 2013-01-30 18:36:05

解決方案3
1 2013-01-30 18:39:01

解決方案4
0 2013-01-30 18:51:06