如何在 html 源代碼中提取 href 屬性

Question

這是我正在處理的 HTML 源代碼：

<a href="/people/charles-adams" class="gridlist__link">

所以我想要做的是提取 href 屬性，在這種情況下是“/people/charles-adams”，帶有 beautifulsoup 模塊。 我需要這個，因為我想獲得 html 源代碼與該特定網頁的 soup.findAll 方法。 但我正在努力從網頁中提取此類屬性。 誰能幫我解決這個問題？

PS我正在使用這種方法來獲取帶有Python模塊beautifulSoup的html源代碼：

request = requests.get(link, headers=header)
html = request.text
soup = BeautifulSoup(html, 'html.parser')

Answer 1

嘗試類似：

refs = soup.find_all('a')
for i in refs:
    if i.has_attr('href'):
        print(i['href'])

它應該是 output：

/people/charles-adams

Answer 2

您可以告訴beautifulsoup使用soup.find_all('a')查找所有錨標簽。 然后您可以使用列表理解對其進行過濾並獲取鏈接。

request = requests.get(link, headers=header)
html = request.text
soup = BeautifulSoup(html, 'html.parser')

tags = soup.find_all('a')
tags = [tag for tag in tags if tag.has_attr('href')]
links = [tag['href'] for tag in tags]

links將是['/people/charles-adams']

如何在 html 源代碼中提取 href 屬性

問題描述

2 個解決方案

解決方案1
0 2019-09-23 00:16:57

解決方案2
0 2019-09-23 00:23:05

如何在 html 源代碼中提取 href 屬性

問題描述

2 個解決方案

解決方案1 0 2019-09-23 00:16:57

解決方案2 0 2019-09-23 00:23:05

解決方案1
0 2019-09-23 00:16:57

解決方案2
0 2019-09-23 00:23:05