繁体   English   中英

如何使用 BeautifulSoup 替换 HTML 文档中的 URL

[英]How to replace URLs in HTML Document using BeautifulSoup

我正在尝试使用 BeautifulSoup 删除 HTML 文档中的所有 URL 链接,只留下相对链接(而不是绝对链接)。 例如,我正在尝试构建代码来转换此 HTML 标记:

<a href="https://www.mertens-stahl.de/berlin/unternehmen.php">

进入这个:

<a href="/berlin/unternehmen.php">

我还没有遇到可行的解决方案,所以到目前为止我的代码示例如下所示:

url = https://www.mertens-stahl.de
html = requests.get("https://www.mertens-stahl.de/berlin/downloads.php").text
soup = BeautifulSoup(html, "html.parser")
soup.find(url).replace_with("")

这会产生错误AttributeError: 'NoneType' object has no attribute 'replace_with' ,所以我正在寻找解决此问题的正确方法。 谢谢!

这应该可以解决问题

from urllib.parse import urlparse
links=soup.select('a[href^="https://www.mertens-stahl.de"]')
for link in links:
    link['href']=urlparse(link['href']).path

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM