簡體   English   中英

如何在 html 源代碼中提取 href 屬性

[英]How to extract href attribute in html source code

這是我正在處理的 HTML 源代碼:

<a href="/people/charles-adams" class="gridlist__link">

所以我想要做的是提取 href 屬性,在這種情況下是“/people/charles-adams”,帶有 beautifulsoup 模塊。 我需要這個,因為我想獲得 html 源代碼與該特定網頁的 soup.findAll 方法。 但我正在努力從網頁中提取此類屬性。 誰能幫我解決這個問題?

PS我正在使用這種方法來獲取帶有Python模塊beautifulSoup的html源代碼:

request = requests.get(link, headers=header)
html = request.text
soup = BeautifulSoup(html, 'html.parser')

嘗試類似:

refs = soup.find_all('a')
for i in refs:
    if i.has_attr('href'):
        print(i['href'])

它應該是 output:

/people/charles-adams

您可以告訴beautifulsoup使用soup.find_all('a')查找所有錨標簽。 然后您可以使用列表理解對其進行過濾並獲取鏈接。

request = requests.get(link, headers=header)
html = request.text
soup = BeautifulSoup(html, 'html.parser')

tags = soup.find_all('a')
tags = [tag for tag in tags if tag.has_attr('href')]
links = [tag['href'] for tag in tags]

links將是['/people/charles-adams']

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM