[英]How would I extract the value of this HTML element attribute with Beautiful Soup?
我正在开发一种刮取网页的小工具。 我正在使用美丽汤 。 我想从页面中获取类ID。 HTML代码如下所示:
<span class='class_id' id='New_line'></span>
我将如何获得class_id
?
此答案是未提及beautifulsoup
的问题的旧版本
您可以使用LXML并遍历所有要求它们提供“ class”属性值的元素。 LXML是用于解析XML文档的库。
比如,例如:
from lxml import etree
root = etree.parse(filename).getroot()
for span in root.iterdescendants("span"):
cls = span.attrib.get("class")
以下示例可能对您有帮助吗?
>>> from BeautifulSoup import BeautifulSoup as B
>>> s = B("<span class='class_id' id='New_line'></span>")
>>> s.span.attrs
[(u'class', u'class_id'), (u'id', u'New_line')]
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.