繁体   English   中英

XPath:提取 html 页面中的所有标签

[英]XPath: extract all tags in html page

我是 XPath 的新手,我遇到了问题。 我想提取 web 页面上的所有且仅 html 标记。

例子:

<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>

我的 output 应该是:

["<html>", "<body>","<h1>","</h1>","<p>","</p>","</body>"."</html>"]

尝试使用正则表达式和re.findall function:

>>> import re
>>> s = '''<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
</body>
</html>'''
>>> re.findall('<.*?>', s)
['<html>', '<body>', '<h1>', '</h1>', '<p>', '</p>', '</body>', '</html>']
>>> 

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM