簡體   English   中英

python html提取標簽

[英]python html extract tags

如何執行以下操作:

  1. 掃描html頁面(最好遍及整個域(www.python.org))並提取所有

h1 h2 ... hn標簽

並將所有標題寫入文件。 按照正確的順序:

從h1開始比h2

直到我們到達下一個h1

使用BeautifulSoupPyQuery

鑒於需要掃描整個網站,您可能需要研究pycurl來抓取要抓取的文件。 但是請注意,不要以與DoS攻擊相當的方式訪問該站點。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM