![](/img/trans.png)
[英]Extract all <script> tags in an HTML page and append to the bottom of the document
[英]XPath: extract all tags in html page
我是 XPath 的新手,我遇到了问题。 我想提取 web 页面上的所有且仅 html 标记。
例子:
<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>
我的 output 应该是:
["<html>", "<body>","<h1>","</h1>","<p>","</p>","</body>"."</html>"]
尝试使用正则表达式和re.findall
function:
>>> import re
>>> s = '''<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>'''
>>> re.findall('<.*?>', s)
['<html>', '<body>', '<h1>', '</h1>', '<p>', '</p>', '</body>', '</html>']
>>>
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.