繁体   English   中英

使用正则表达式提取HTML数据

[英]Extract html data using regular expressions

我有一个看起来像这样的html页面

<tr>
    <td align=left>
        <a href="history/2c0b65635b3ac68a4d53b89521216d26.html">
            <img src="/images/page.gif" border="0" title="полная информация о документе" width=20 height=20>
        </a> 
        <a href="history/2c0b65635b3ac68a4d53b89521216d26_0.html" title="C.">Th</a>
    </td>
</tr>
<tr align=right>
    <td align=left>
        <a href="marketing/3c0a65635b2bc68b5c43b88421306c37.html">
            <img src="/images/page.gif" border="0" title="полная информация о документе" width=20 height=20>
        </a> 
        <a href="marketing/3c0a65635b2bc68b5c43b88421306c37_0.html" title="b">aa</a>
    </td>
</tr>

我需要得到文本

历史记录/2c0b65635b3ac68a4d53b89521216d26.html marketing / 3c0a65635b2bc68b5c43b88421306c37.html

我在python中编写了一个使用正则表达式的脚本

import re
a = re.compile("[0-9 a-z]{0,15}/[0-9 a-f]{32}.html")
print(a.match(s))

s的值是上面的html页面。 但是,当我使用此脚本时,会显示"None" 我哪里做错了?

不要使用正则表达式来解析HTML内容。

使用专用工具-HTML解析器。

示例(使用BeautifulSoup ):

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup

data = u"""Your HTML here"""

soup = BeautifulSoup(data)
for link in soup.select('td a[href]'):
    print link['href']

打印:

history/2c0b65635b3ac68a4d53b89521216d26.html
history/2c0b65635b3ac68a4d53b89521216d26_0.html
marketing/3c0a65635b2bc68b5c43b88421306c37.html
marketing/3c0a65635b2bc68b5c43b88421306c37_0.html

或者,如果要获取遵循模式的href值,请使用:

import re

for link in soup.find_all('a', href=re.compile(r'\w+/\w{32}\.html')):
    print link['href']

其中r'\\w+/\\w{32}\\.html'是一个正则表达式,将被应用到href每属性a发现标记 它会匹配一个或多个字母数字字符( \\w+ ),后跟一个斜杠,然后是正好32个字母数字字符( \\w{32} ),再跟一个点( \\. 。-需要转义),然后是html

DEMO。

您也可以写类似

>>> soup = BeautifulSoup(html) #html is the string containing the data to be parsed
>>> for a in soup.select('a'):
...     print a['href']
... 
history/2c0b65635b3ac68a4d53b89521216d26.html
history/2c0b65635b3ac68a4d53b89521216d26_0.html
marketing/3c0a65635b2bc68b5c43b88421306c37.html
marketing/3c0a65635b2bc68b5c43b88421306c37_0.html

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM