使用python美麗湯從html提取特定標簽

Question

從下面的html

html='<tr><th scope="row">Born</th><td><span style="display:none"> (<span class="bday">1994-01-28</span>) </span>28 January 1994<span class="noprint ForceAgeToShow"> (age 23)</span><sup class="reference" id="cite_ref-buenamusica_1-0"><a href="#cite_note-buenamusica-1">[1]</a></sup><br/><a href="/wiki/Medell%C3%ADn" title="Medellín">Medellín</a>, <a href="/wiki/Colombia" title="Colombia">Colombia</a></td></tr>'

我想得到

['Medellin','Colombia']

到目前為止，我有以下代碼

soup3=BeautifulSoup(html,'html.parser')
spans=soup3.findAll('tr')
[el.text for el in soup3.find_all('a')]

哪個產生

['[1]', 'Medellín', 'Colombia']

但是，也是上課的第一項，我不想要。

你能提供線索嗎？

我不想引用列表的第二和第三位置，因為我不希望其他html都具有第一位置（[1] 0

Answer 1

對於這種代碼模式：

<tr>
    <th scope="row">Born</th>
    <td>
        <span style="display:none"> (<span class="bday">1994-01-28</span>) </span>
        28 January 1994
        <span class="noprint ForceAgeToShow"> (age 23)</span>
        <sup class="reference" id="cite_ref-buenamusica_1-0">
            <a href="#cite_note-buenamusica-1">[1]</a>
        </sup>
        <br/>
        <a href="/wiki/Medell%C3%ADn" title="Medellín">Medellín</a>,
        <a href="/wiki/Colombia" title="Colombia">Colombia</a>
    </td>
</tr>

您可以嘗試使用更具體的選擇器，例如：

soup3=BeautifulSoup(html,'html.parser')
spans=soup3.select('tr>td>a')
[el.text for el in spans]

要么

soup3=BeautifulSoup(html,'html.parser')
spans=soup3.select('tr')
[el.text for el in spans.find_all('td>a')]

Answer 2

您感興趣的信息似乎也出現在title屬性中。 您可以嘗試使用它來代替text並丟棄它為None的條目。

from bs4 import BeautifulSoup

html='<tr><th scope="row">Born</th><td><span style="display:none"> (<span class="bday">1994-01-28</span>) </span>28 January 1994<span class="noprint ForceAgeToShow"> (age 23)</span><sup class="reference" id="cite_ref-buenamusica_1-0"><a href="#cite_note-buenamusica-1">[1]</a></sup><br/><a href="/wiki/Medell%C3%ADn" title="Medellín">Medellín</a>, <a href="/wiki/Colombia" title="Colombia">Colombia</a></td></tr>'

soup3=BeautifulSoup(html,'html.parser')
spans=soup3.findAll('tr')
[el.get('title') for el in soup3.find_all('a') if el.get('title') is not None]
# ['Medellín', 'Colombia']

使用python美麗湯從html提取特定標簽

問題描述

2 個解決方案

解決方案1
1 2018-01-08 21:52:04

解決方案2
0 已采納 2018-01-08 21:57:02

使用python美麗湯從html提取特定標簽

問題描述

2 個解決方案

解決方案1 1 2018-01-08 21:52:04

解決方案2 0 已采納 2018-01-08 21:57:02

解決方案1
1 2018-01-08 21:52:04

解決方案2
0 已采納 2018-01-08 21:57:02