使用Beautiful Soup家族树解析HTML页面

Question

我正在编写一个解析脚本，该脚本应该访问HTML页面中的“ img”标签（并且我正在使用Beautiful Soup。）我正在使用findAll方法来访问代码中的每个图像，但是我还想访问其他一点信息。 我想要每个图像的标题，该图像位于href属性下的紧接“ a”标记之前。 HTML代码如下所示：

div class="thumbinner" style="width:202px;"><a href="/wiki/File:Edmund-Hillary.web.jpg" class="image">img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/8/8d/Edmund-Hillary.web.jpg/200px-Edmund-Hillary.web.jpg" width="200" height="272" class="thumbimage" srcset="//upload.wikimedia.........

我正在尝试使用美丽汤中的父/子方法，但出现错误。 我的代码如下所示：

images= soup.findAll("img", width=true)#access all image tags
jpegtitles= images.siblings['href']

我认为，由于“ img”标签和“ a”标签都是“ div”标签的子级，因此可以通过同级方法访问它们。

关于如何访问的任何建议：href =“ / wiki / File：Edmund-Hillary.web.jpg”？

Answer 1

因为图像标记位于<a>标记之后，所以您要查找父级而不是同级：

>>> soup.find('img', width=True).parent['href']
'/wiki/File:Edmund-Hillary.web.jpg'

您的代码的另一个问题是findAll返回一个列表，因此您不能直接在其上调用.siblings 。 如果有多个图像，请使用循环。

使用Beautiful Soup家族树解析HTML页面

问题描述

1 个解决方案

解决方案1
0 已采纳 2013-06-26 02:22:53

使用Beautiful Soup家族树解析HTML页面

问题描述

1 个解决方案

解决方案1 0 已采纳 2013-06-26 02:22:53

解决方案1
0 已采纳 2013-06-26 02:22:53