[英]How to extract href attribute in html source code
這是我正在處理的 HTML 源代碼:
<a href="/people/charles-adams" class="gridlist__link">
所以我想要做的是提取 href 屬性,在這種情況下是“/people/charles-adams”,帶有 beautifulsoup 模塊。 我需要這個,因為我想獲得 html 源代碼與該特定網頁的 soup.findAll 方法。 但我正在努力從網頁中提取此類屬性。 誰能幫我解決這個問題?
PS我正在使用這種方法來獲取帶有Python模塊beautifulSoup的html源代碼:
request = requests.get(link, headers=header)
html = request.text
soup = BeautifulSoup(html, 'html.parser')
嘗試類似:
refs = soup.find_all('a')
for i in refs:
if i.has_attr('href'):
print(i['href'])
它應該是 output:
/people/charles-adams
您可以告訴beautifulsoup
使用soup.find_all('a')
查找所有錨標簽。 然后您可以使用列表理解對其進行過濾並獲取鏈接。
request = requests.get(link, headers=header)
html = request.text
soup = BeautifulSoup(html, 'html.parser')
tags = soup.find_all('a')
tags = [tag for tag in tags if tag.has_attr('href')]
links = [tag['href'] for tag in tags]
links
將是['/people/charles-adams']
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.