簡體   English   中英

Python - 整個網頁的urlretrieve

[英]Python - urlretrieve for entire web page

使用urllib.urlretrieve('http://page.com', 'page.html') ://page.com','page.html urllib.urlretrieve('http://page.com', 'page.html')我可以保存索引頁面,只保存page.com的索引​​。 urlretrieve是否處理類似於wget -r的內容,讓我下載整個網頁結構以及page.com的所有相關html文件?

問候

不是直接的。

如果你想在整個網站上蜘蛛,請看機械化: http//wwwsearch.sourceforge.net/mechanize/

這將允許您加載頁面並從中跟蹤鏈接

就像是:

import mechanize
br = mechanize.Browser()
br.open('http://stackoverflow.com')
for link in br.links():
    print(link)
    response = br.follow_link(link)
    html = response.read()
    #save your downloaded page
    br.back()

就目前而言,這只會讓你的頁面遠離起點。 但是,您可以輕松地將其調整為覆蓋整個站點。

如果您真的只想鏡像整個站點,請使用wget。 如果你需要做一些聰明的處理(處理javascript,選擇性地跟蹤鏈接等),在python中這樣做是值得的。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM