繁体   English   中英

beautifulsoup4从具有特定属性值的anchor元素获取href

[英]beautifulsoup4 get href from anchor element with specific attribute value

我试图解析从具有属性的页面上的多个锚元素href值itemprop与价值url使用BeautifulSoup4

例如,从<a itemprop="url" href="/pages/page"></a>提取/pages/page ,但在一个页面中有多个这样的项目,所以我希望它们在一个数组中。

我在想这样的soup("span", html = True, {'itemprop' : 'name' })

通过find_all()您可以在解析的输出中搜索特定标记。 在你的情况下,这很容易。 如果第一个参数是一个字符串,它只会找到具有该名称的标签。 所以soup.find_all("a")会找到所有锚标签。

现在它还支持(几乎)任何关键字参数,以进一步缩小您的选择范围。 在您的情况下,您希望将属性itemprop设置为url以便您可以使用soup.find_all("a", itemprop="url")

现在,它将返回一个标记列表,如果要从这些标记中提取href属性,可以使用tag.get("href") 最终结果将是这样的:

anchored_tags = [tag.get("href") for tag in soup.find_all("a", itemprop="url")]

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM