如何使用Python中的BeautifulSoup迭代具有不同標識符的標記

Question

這可能是一個簡單的問題，但我想用id = dgrdAcquired_hyplnkacquired_0，dgrdAcquired_hyplnkacquired_1等來迭代這些標簽。

有沒有比我下面的代碼更簡單的方法呢？ 問題是我拉出的每個網頁的這些標簽的數量會有所不同。 當每個網頁可能有不同數量的標簽時，我不確定如何獲取這些標簽中的文本。

html = """
<tr>
<td colspan="3"><table class="datagrid" cellspacing="0" cellpadding="3" rules="rows" id="dgrdAcquired" width="100%">
<tr class="datagridH">
<th scope="col"><font face="Arial" color="Blue" size="2"><b>Name (RSSD ID)</b></font></th><th scope="col"><font face="Arial" color="Blue" size="2"><b>Acquisition Date</b></font></th><th scope="col"><font face="Arial" color="Blue" size="2"><b>Description</b></font></th>
</tr><tr class="datagridI">
<td nowrap="nowrap"><font face="Arial" size="2">
<a id="dgrdAcquired_hyplnkacquired_0" href="InstitutionProfile.aspx?parID_RSSD=3557617&parDT_END=20110429">FIRST CHOICE COMMUNITY BANK                                                                                              (3557617)</a>
</font></td><td><font face="Arial" size="2">
<span id="dgrdAcquired_lbldtAcquired_0">2011-04-30</span>
</font></td><td><font face="Arial" size="2">
<span id="dgrdAcquired_lblAcquiredDescText_0">The acquired institution failed and disposition was arranged of by a regulatory agency.  Assets were distributed to the acquiring institution.</span>
</font></td>
</tr><tr class="datagridAI">
<td nowrap="nowrap"><font face="Arial" size="2">
<a id="dgrdAcquired_hyplnkacquired_1" href="InstitutionProfile.aspx?parID_RSSD=104038&parDT_END=20110429">PARK AVENUE BANK, THE                                                                                                    (104038)</a>
</font></td>
"""
soup = BeautifulSoup(html)
firm1 = soup.find('a', { "id" : "dgrdAcquired_hyplnkacquired_0"})
data1 = ''.join(firm1.findAll(text=True))
print data1

firm2 = soup.find('a', { "id" : "dgrdAcquired_hyplnkacquired_1"})
data2 = ''.join(firm2.findAll(text=True))
print data2

Answer 1

我會做以下，假設如果有n這樣的標簽，它們的編號0...n ：

soup = BeautifulSoup(html)
i = 0
data = []
while True:
    firm1 = soup.find('a', { "id" : "dgrdAcquired_hyplnkacquired_%s" % i})
    if not firm1:
        break
    data.append(''.join(firm1.findAll(text=True)))
    print data[-1]
    i += 1

Answer 2

在這種特殊情況下，正則表達式可能過度。
盡管如此，這是另一種選擇：

import re
soup.find_all('a', id=re.compile(r'[dgrdAcquired_hyplnkacquired_]\d+'))

請注意 ：如果使用BS3，則s/find_all/findAll/g 。
結果（為了顯示的目的，刪除了一些空格）：

[<a href="InstitutionProfile.aspx?parID_RSSD=3557617&amp;parDT_END=20110429" 
  id="dgrdAcquired_hyplnkacquired_0">FIRST CHOICE COMMUNITY BANK (3557617)</a>,
 <a href="InstitutionProfile.aspx?parID_RSSD=104038&amp;parDT_END=20110429" 
  id="dgrdAcquired_hyplnkacquired_1">PARK AVENUE BANK, THE (104038)</a>]

如何使用Python中的BeautifulSoup迭代具有不同標識符的標記

問題描述

2 個解決方案

解決方案1
1 已采納 2012-03-27 18:19:58

解決方案2
1 2012-03-27 18:37:42

如何使用Python中的BeautifulSoup迭代具有不同標識符的標記

問題描述

2 個解決方案

解決方案1 1 已采納 2012-03-27 18:19:58

解決方案2 1 2012-03-27 18:37:42

解決方案1
1 已采納 2012-03-27 18:19:58

解決方案2
1 2012-03-27 18:37:42