繁体   English   中英

python html提取标签

[英]python html extract tags

如何执行以下操作:

  1. 扫描html页面(最好遍及整个域(www.python.org))并提取所有

h1 h2 ... hn标签

并将所有标题写入文件。 按照正确的顺序:

从h1开始比h2

直到我们到达下一个h1

使用BeautifulSoupPyQuery

鉴于需要扫描整个网站,您可能需要研究pycurl来抓取要抓取的文件。 但是请注意,不要以与DoS攻击相当的方式访问该站点。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM