BeautifulSoup：提取HTML標簽屬性

Question

僅當text=True而不指定標簽時，才可以獲取HTML標簽屬性。

例：

html=<p class="c4">SOMETEXT</p>

我可以做：

[tag.attrs for tag in soup.findAll('p')]
>>> [[(u'class', u'c1')]]

有沒有辦法做：

[text.attrs for text in soup.findAll(text=True)]

幫忙多謝！

Answer 1

問題已經明確，您認為您需要這樣做：

[tag.attrs for tag in soup.findAll(True) if tag.string]

.findAll(True)返回文檔中的所有標記，因此即使它們為空，它們也將具有.attr ，如果標記具有.string內容，則將對其進行過濾。

Answer 2

>>> from bs4 import BeautifulSoup as bs
>>> html = '<p class="c4">SOMETEXT</p><p class="c5"></p>'
>>> soup = bs(html)
>>> [tag.attrs for tag in soup.findAll('p') if tag.string]
[{'class': ['c4']}]

BeautifulSoup：提取HTML標簽屬性

問題描述

2 個解決方案

解決方案1
3 已采納 2012-07-17 09:23:29

解決方案2
0 2012-07-17 09:29:39

BeautifulSoup：提取HTML標簽屬性

問題描述

2 個解決方案

解決方案1 3 已采納 2012-07-17 09:23:29

解決方案2 0 2012-07-17 09:29:39

解決方案1
3 已采納 2012-07-17 09:23:29

解決方案2
0 2012-07-17 09:29:39