抓住美麗的湯元內容

Question

我需要在這里使用正則表達式嗎？

我想要的內容如下所示：

<meta content="text I want to grab" name="description"/>

但是，有許多以“ meta content =“開頭的對象，我想要以name =” description“結尾的對象。 我是regex的新手，但我認為BS可以解決這個問題。

Answer 1

假設您能夠將HTML內容讀入一個變量並將其命名為html ，則必須使用beautifulsoup解析HTML：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

然后，要搜索<meta content="text I want to grab" name="description"/> ，必須找到名稱為'meta'且屬性name='description'的標簽：

def is_meta_description(tag):
    return tag.name == 'meta' and tag['name'] == 'description'

meta_tag = soup.find(is_meta_description)

您正在嘗試獲取標簽的content屬性，因此：

content = meta_tag['content']

由於這是一個簡單的搜索，因此還有一種更簡單的方法來找到標簽：

meta_tag = soup.find('meta', attrs={'name': 'description'})