python在字符串后解析URL

Question

我想从网址（链接）中提取一个字符串。 该字符串在<h3></h3>标记中。

 link = http://www.test.com/page.html

 Content of link: <h3>Text here</h3>

首先获取page.html的内容/源代码然后提取链接的一种优雅方法是什么？ 谢谢！

Answer 1

我会推荐美丽汤。 这是用于HTML页面已损坏的很好的解析器（在大多数情况下，您不必担心页面格式不正确）。

Answer 2

您可以使用URLLib2来检索URL的内容：

http://docs.python.org/library/urllib2.html

然后，您可以使用Python库中的HTML解析器来找到正确的内容：

http://docs.python.org/library/htmlparser.html

Answer 3

import urllib2
url="http://www.test.com/page.html"
page=urllib2.urlopen(url)
data=page.read()
for item in data.split("</h3>"):
    if "<h3>" in item:
         print item.split("<h3>")[1]

Answer 4

如果您想要的文本是页面上唯一的 <h3>换行文本，请尝试：

from urllib2 import urlopen
from re import search
text = search(r'(?<=<h3>).+?(?=</h3>)', urlopen(link).read()).group(0)

如果有多个<h3>包装的字符串，则可以将更多详细信息放入模式中，也可以使用re.finditer() / re.findall()

python在字符串后解析URL

问题描述

4 个解决方案

解决方案1
2 2010-03-01 10:59:35

解决方案2
1 2010-03-01 10:42:42

解决方案3
1 已采纳 2010-03-01 10:53:20

解决方案4
-1 2010-03-01 10:55:39

python在字符串后解析URL

问题描述

4 个解决方案

解决方案1 2 2010-03-01 10:59:35

解决方案2 1 2010-03-01 10:42:42

解决方案3 1 已采纳 2010-03-01 10:53:20

解决方案4 -1 2010-03-01 10:55:39

解决方案1
2 2010-03-01 10:59:35

解决方案2
1 2010-03-01 10:42:42

解决方案3
1 已采纳 2010-03-01 10:53:20

解决方案4
-1 2010-03-01 10:55:39