如何為以下場景（HTML）創建正則表達式？

Question

我在HTML頁面中有幾種已知的格式，我需要解析標記的內容

<TR>
    <TD align=center>Reissue of:</TD>
    <TD align=center> **VALUES_TO_FIND** </TD>
    <TD> </TD> 
</TR>
<TR>
    <TD align=center> </TD>
</TR>

基本上，我認為我可以使用正則表達式將HTML連接起來，該正則表達式將匹配我要查找的位置內的任何內容。

我知道VALUES_TO_FIND之前和之后的文本將始終相同。 如何使用RE找到它？ （我正在處理幾種情況，格式可以在頁面中的多個位置重復。

Answer 1

這是您要尋找的：

import re

s="""
<TR>
    <TD align=center>Reissue of:</TD>
    <TD align=center> **VALUES_TO_FIND** </TD>
    <TD> </TD> 
</TR>
"""

p="""
<TR>
    <TD align=center>Reissue of:</TD>
    <TD align=center>(.*)</TD>
    <TD> </TD> 
</TR>
"""

m=re.search(p, s)
print m.group(1)

Answer 2

不要使用正則表達式來解析HTML（這不是常規語言）。 在stackoverflow上有很多關於該主題的主題。

我建議您使用：BeautifulSoup，Pattern和類似的模塊。

Answer 3

此正則表達式將執行以下操作：

re.findall(r'<TR>\s+<TD.+?</TD>\s+<TD align=center>(.*?)</TD>',html,re.DOTALL)

但是我建議使用解析器。

Answer 4

與正則表達式相比，從HTML提取數據有許多更好的選擇。 例如，嘗試Scrapy 。

Answer 5

HTML不是一種常規語言，使用正則表達式很難使用它。

BeautifulSoup是一個不錯的解析器，這是一個如何使用它的示例：

from BeautifulSoup  import BeautifulSoup 

html = u'''
<TR>
    <TD align=center>Reissue of:</TD>
    <TD align=center> **VALUES_TO_FIND** </TD>
    <TD> </TD> 
</TR>
<TR>
    <TD align=center> </TD>
</TR>'''

bs = BeautifulSoup(html)

print [td.contents for td in bs.findAll('td')]

輸出：

[[u'Reissue of:'], [u' **VALUES_TO_FIND** '], [u' '], [u' ']]

您知道從這里做什么。 :)

用pip install BeautifulSoup 。 這里是文檔：

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

如何為以下場景（HTML）創建正則表達式？

問題描述

5 個解決方案

解決方案1
1 已采納 2012-07-02 15:09:39

解決方案2
0 2012-07-02 11:56:40

解決方案3
0 2012-07-02 11:58:38

解決方案4
0 2012-07-02 12:39:21

解決方案5
0 2012-07-02 13:49:25

如何為以下場景（HTML）創建正則表達式？

問題描述

5 個解決方案

解決方案1 1 已采納 2012-07-02 15:09:39

解決方案2 0 2012-07-02 11:56:40

解決方案3 0 2012-07-02 11:58:38

解決方案4 0 2012-07-02 12:39:21

解決方案5 0 2012-07-02 13:49:25

解決方案1
1 已采納 2012-07-02 15:09:39

解決方案2
0 2012-07-02 11:56:40

解決方案3
0 2012-07-02 11:58:38

解決方案4
0 2012-07-02 12:39:21

解決方案5
0 2012-07-02 13:49:25