[英]How to get all unique HTML tags on a webpage using regular expression?
[英]Find all <a href> HTML tags and append target blank values using Python regular expression
<a href='https://example.com/'>
大文件中的引用和 append
target='_blank' rel='noopener noreferrer'
标签末尾的选项,如果它丢失了。
大致上,我做了以下事情:
re.sub(r'<a href=([^>]+)', r'<a href=([^>]+)' + " target='_blank' rel='noopener noreferrer'", content)
注意:内容包含要更改的文本正文。
但是,第二个参数(应该是要替换的值)弄乱了结果。
我得到的 output 是:
<a href=([^>]+) target='_blank' rel='noopener noreferrer'>
预期结果应该是:
<a href='https://example.com/' target='_blank' rel='noopener noreferrer'>
我做错了什么,我该如何解决这个问题?
试试这个:(*** 如果专业编码,请使用建议的工具 ti7。)
import re
content = "<a href='https://example.com/'>"
x = re.sub(r'(<a href=([^>]+))', r'\1' + " target='_blank' rel='noopener noreferrer'", content)
print(x)
output:
<a href='https://example.com/' target='_blank' rel='noopener noreferrer'>
如果您可以使用第三方库,BeautifulSoup 可能非常适合您!
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_contents, "html.parser")
soup.find_all("a")
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.