[英]python html extract tags
如何執行以下操作:
h1 h2 ... hn標簽
並將所有標題寫入文件。 按照正確的順序:
從h1開始比h2
直到我們到達下一個h1
使用BeautifulSoup或PyQuery 。
鑒於需要掃描整個網站,您可能需要研究pycurl來抓取要抓取的文件。 但是請注意,不要以與DoS攻擊相當的方式訪問該站點。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.