使用BeautifulSoup進行HTML抓取

Question

我正在搜尋

<span>Status:</span>,
  <span><strong>Moored</strong></span>,
  <strong>Moored</strong

並拉出系Moored 。 我已經嘗試了很多東西，但是還沒有得到。 最近一次find(attrs={'span':'Status:'})但這只返回[] 。 HTML中有很多標記為的東西，但這是Status:之后的唯一 Status:

編輯：上面的HTML代碼是運行a = soup.find_all(attrs={'class':'vertical-offset-10 group-ib'})然后使用a = (row.findChildren())

在HTML中：

<div class="vertical-offset-10 group-ib">
                    <span>Status:</span>
                    <span><strong>Moored</strong></span>
                </div>

澄清一下，我想要的只是字符串Moored

Answer 1

res = soup.find_all('span', text="Status:")
res[0].parent.find('strong').text

soup.find_all搜索包含文本"Result:"所有標記，然后獲取next_sibling（下一個標記）並獲取該標記的文本內容。

使用BeautifulSoup進行HTML抓取

問題描述

1 個解決方案

解決方案1
2 已采納 2016-10-11 16:18:55

使用BeautifulSoup進行HTML抓取

問題描述

1 個解決方案

解決方案1 2 已采納 2016-10-11 16:18:55

解決方案1
2 已采納 2016-10-11 16:18:55