[英]python html extract tags
如何执行以下操作:
h1 h2 ... hn标签
并将所有标题写入文件。 按照正确的顺序:
从h1开始比h2
直到我们到达下一个h1
使用BeautifulSoup或PyQuery 。
鉴于需要扫描整个网站,您可能需要研究pycurl来抓取要抓取的文件。 但是请注意,不要以与DoS攻击相当的方式访问该站点。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.