[英]Grabbing meta content with beautiful soup
我需要在這里使用正則表達式嗎?
我想要的內容如下所示:
<meta content="text I want to grab" name="description"/>
但是,有許多以“ meta content =“開頭的對象,我想要以name =” description“結尾的對象。 我是regex的新手,但我認為BS可以解決這個問題。
假設您能夠將HTML內容讀入一個變量並將其命名為html
,則必須使用beautifulsoup解析HTML:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
然后,要搜索<meta content="text I want to grab" name="description"/>
,必須找到名稱為'meta'
且屬性name='description'
的標簽:
def is_meta_description(tag):
return tag.name == 'meta' and tag['name'] == 'description'
meta_tag = soup.find(is_meta_description)
您正在嘗試獲取標簽的content
屬性,因此:
content = meta_tag['content']
由於這是一個簡單的搜索,因此還有一種更簡單的方法來找到標簽:
meta_tag = soup.find('meta', attrs={'name': 'description'})
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.