![](/img/trans.png)
[英]BeautifulSoup4: Fail to find 'a' tag with specific href value by find()
[英]beautifulsoup4 get href from anchor element with specific attribute value
我试图解析从具有属性的页面上的多个锚元素href值itemprop
与价值url
使用BeautifulSoup4
例如,从<a itemprop="url" href="/pages/page"></a>
提取/pages/page
,但在一个页面中有多个这样的项目,所以我希望它们在一个数组中。
我在想这样的soup("span", html = True, {'itemprop' : 'name' })
通过find_all()
您可以在解析的输出中搜索特定标记。 在你的情况下,这很容易。 如果第一个参数是一个字符串,它只会找到具有该名称的标签。 所以soup.find_all("a")
会找到所有锚标签。
现在它还支持(几乎)任何关键字参数,以进一步缩小您的选择范围。 在您的情况下,您希望将属性itemprop
设置为url
以便您可以使用soup.find_all("a", itemprop="url")
。
现在,它将返回一个标记列表,如果要从这些标记中提取href
属性,可以使用tag.get("href")
。 最终结果将是这样的:
anchored_tags = [tag.get("href") for tag in soup.find_all("a", itemprop="url")]
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.