Python - 整個網頁的urlretrieve

Question

使用urllib.urlretrieve('http://page.com', 'page.html') ://page.com'，'page.html urllib.urlretrieve('http://page.com', 'page.html')我可以保存索引頁面，只保存page.com的索引。 urlretrieve是否處理類似於wget -r的內容，讓我下載整個網頁結構以及page.com的所有相關html文件？

問候

Answer 1

不是直接的。

如果你想在整個網站上蜘蛛，請看機械化： http ： //wwwsearch.sourceforge.net/mechanize/

這將允許您加載頁面並從中跟蹤鏈接

就像是：

import mechanize
br = mechanize.Browser()
br.open('http://stackoverflow.com')
for link in br.links():
    print(link)
    response = br.follow_link(link)
    html = response.read()
    #save your downloaded page
    br.back()

就目前而言，這只會讓你的頁面遠離起點。 但是，您可以輕松地將其調整為覆蓋整個站點。

如果您真的只想鏡像整個站點，請使用wget。 如果你需要做一些聰明的處理（處理javascript，選擇性地跟蹤鏈接等），在python中這樣做是值得的。

Python - 整個網頁的urlretrieve

問題描述

1 個解決方案

解決方案1
1 2012-03-29 19:02:28

Python - 整個網頁的urlretrieve

問題描述

1 個解決方案

解決方案1 1 2012-03-29 19:02:28

解決方案1
1 2012-03-29 19:02:28