如何通过Beautiful Soup在href中抓取文本？

Question

我有一个格式为<a href="javascript:ShowImg('../UploadFile/Images/c/1/B_27902.jpg');">的 href ，我想用'../UploadFile/Images/c/1/B_27902.jpg' 。 我用了一个愚蠢的方法来获取它:(我想知道是否有更简单的方法来获取它。

url = '<a href="javascript:ShowImg('../UploadFile/Images/c/1/B_27902.jpg');">'
html = url.get('href')
html = html.replace('javascript:ShowImg(', '').replace(');', '')

原始标签如下：

<a href="javascript:ShowImg('../UploadFile/Images/c/1/B_27902.jpg');">
<img height="110" onerror="this.src='../UploadFile/Images/no_pic_big.jpg';"
src="../UploadFile/Images/c/1/S_27902.jpg" width="170"/>
</a>

Answer 1

BeautifulSoup可以在搜索元素时将编译的正则表达式模式应用于属性值。 然后，您可以使用相同的模式来提取所需的部分：

import re
from bs4 import BeautifulSoup

data = """
<a href="javascript:ShowImg('../UploadFile/Images/c/1/B_27902.jpg');">
<img height="110" onerror="this.src='../UploadFile/Images/no_pic_big.jpg';"
src="../UploadFile/Images/c/1/S_27902.jpg" width="170"/>
</a>
"""

soup = BeautifulSoup(data, "html.parser")
pattern = re.compile(r"javascript:ShowImg\('(.*?)'\);")

href = soup.find('a', href=pattern)["href"]
link = pattern.search(href).group(1)
print(link)  # prints ../UploadFile/Images/c/1/B_27902.jpg

如何通过Beautiful Soup在href中抓取文本？

问题描述

1 个解决方案

解决方案1
2 已采纳 2016-03-05 13:45:56

如何通过Beautiful Soup在href中抓取文本？

问题描述

1 个解决方案

解决方案1 2 已采纳 2016-03-05 13:45:56

解决方案1
2 已采纳 2016-03-05 13:45:56