Python正则表达式后视需要固定宽度模式

Question

在尝试提取html页面的标题时，我总是使用以下正则表达式：

(?<=<title.*>)([\s\S]*)(?=</title>)

这将提取文档中标记之间的所有内容，并忽略标记本身。 但是，当尝试在Python中使用此正则表达式时，会引发以下异常：

Traceback (most recent call last):  
File "test.py", line 21, in <module>
    pattern = re.compile('(?<=<title.*>)([\s\S]*)(?=</title>)')
File "C:\Python31\lib\re.py", line 205, in compile
    return _compile(pattern, flags)   
File "C:\Python31\lib\re.py", line 273, in _compile
    p = sre_compile.compile(pattern, flags)   File
"C:\Python31\lib\sre_compile.py", line 495, in compile
    code = _code(p, flags)   File "C:\Python31\lib\sre_compile.py", line 480, in _code
_compile(code, p.data, flags)   File "C:\Python31\lib\sre_compile.py", line 115, in _compile
    raise error("look-behind requires fixed-width pattern")
sre_constants.error: look-behind requires fixed-width pattern

我使用的代码是：

pattern = re.compile('(?<=<title.*>)([\s\S]*)(?=</title>)')
m = pattern.search(f)

如果我做一些最小的调整它的工作原理：

pattern = re.compile('(?<=<title>)([\s\S]*)(?=</title>)')
m = pattern.search(f)

但是，这不会考虑由于某种原因具有属性或类似性的潜在html标题。

任何人都知道这个问题的一个好的解决方法？ 任何提示都表示赞赏。

Answer 1

抛弃了用正则表达式解析HTML的想法，而是使用实际的HTML解析库。 快速搜索后我发现了这个。 从HTML文件中提取信息是一种更安全的方法。

请记住，HTML不是常规语言，因此正则表达式从根本上说是从中提取信息的错误工具。

Answer 2

这是一个着名的答案，用正则表达式解析html，它很好地说，“不要使用正则表达式解析html。”

Answer 3

用于提取非嵌套HTML / XML标记内容的正则表达式实际上非常简单：

r = re.compile('<title[^>]*>(.*?)</title>')

但是，对于任何更复杂的东西，你应该使用正确的DOM解析器，如urllib或BeautifulSoup。

Answer 4

怎么样的：

 r = re.compile("(<title.*>)([\s\S]*)(</title>)")
 title = r.search(page).group(2)

Answer 5

如果你只想获得标题标签，

html=urllib2.urlopen("http://somewhere").read()
for item in html.split("</title>"):
    if "<title>" in item:
        print item[ item.find("<title>")+7: ]

Python正则表达式后视需要固定宽度模式

问题描述

5 个解决方案

解决方案1
11 2010-04-10 11:47:16

解决方案2
5 2010-04-10 13:01:49

解决方案3
3 2013-03-29 15:02:14

解决方案4
2 2010-04-10 17:22:53

解决方案5
1 已采纳 2010-04-10 13:04:30

Python正则表达式后视需要固定宽度模式

问题描述

5 个解决方案

解决方案1 11 2010-04-10 11:47:16

解决方案2 5 2010-04-10 13:01:49

解决方案3 3 2013-03-29 15:02:14

解决方案4 2 2010-04-10 17:22:53

解决方案5 1 已采纳 2010-04-10 13:04:30

解决方案1
11 2010-04-10 11:47:16

解决方案2
5 2010-04-10 13:01:49

解决方案3
3 2013-03-29 15:02:14

解决方案4
2 2010-04-10 17:22:53

解决方案5
1 已采纳 2010-04-10 13:04:30