如何使用Beautiful Soup提取此HTML元素属性的值？

Question

我正在开发一种刮取网页的小工具。 我正在使用美丽汤。 我想从页面中获取类ID。 HTML代码如下所示：

<span class='class_id' id='New_line'></span>

我将如何获得class_id ？

Answer 1

此答案是未提及beautifulsoup的问题的旧版本

您可以使用LXML并遍历所有要求它们提供“ class”属性值的元素。 LXML是用于解析XML文档的库。

比如，例如：

from lxml import etree
root = etree.parse(filename).getroot()

for span in root.iterdescendants("span"):
    cls = span.attrib.get("class")

Answer 2

以下示例可能对您有帮助吗？

>>> from BeautifulSoup import BeautifulSoup as B
>>> s = B("<span class='class_id' id='New_line'></span>")
>>> s.span.attrs
[(u'class', u'class_id'), (u'id', u'New_line')]

如何使用Beautiful Soup提取此HTML元素属性的值？

问题描述

2 个解决方案

解决方案1
4 2011-11-18 20:20:30

解决方案2
3 已采纳 2011-11-18 21:01:35

如何使用Beautiful Soup提取此HTML元素属性的值？

问题描述

2 个解决方案

解决方案1 4 2011-11-18 20:20:30

解决方案2 3 已采纳 2011-11-18 21:01:35

解决方案1
4 2011-11-18 20:20:30

解决方案2
3 已采纳 2011-11-18 21:01:35