簡體   English   中英

WGet下載順序的邏輯

[英]WGet's Logic in Order of Downloading

這是一個更普遍的問題,但它對我正在運行的數據挖掘項目有更廣泛的影響。 我一直在使用wget鏡像歸檔網頁進行分析。 這是一個大量的數據,我目前的鏡像過程已經持續了將近一個星期。 這給了我很多時間來觀看讀數。

wget如何確定下載頁面的順序? 我似乎無法辨別其決策制定過程的一致性邏輯(它不按字母順序,按原始網站創建日期或文件類型進行)。 當我開始處理數據時,這將非常有助於掌握。

FWIW,這是我正在使用的命令(它需要cookie,而網站的TOS允許以任何方式“訪問”我不想冒任何機會) - 其中SITE = URL:

wget -m --cookies=on --keep-session-cookies --load-cookies=cookie3.txt --save-cookies=cookie4.txt --referer=SITE --random-wait --wait=1 --limit-rate=30K --user-agent="Mozilla 4.0" SITE

編輯添加:在對Chown的有用答案的評論中,我稍微改進了我的問題,所以在這里。 有更大的網站 - 比如epe.lac-bac.gc.ca/100/205/301/ic/cdc/E/Alphabet.asp - 我發現它最初創建了一個目錄結構和一些index.html / default.html頁面,然后再回到不同的網站幾次(例如,在每次傳遞時抓取更多的圖像和子頁面)

來自gnu.org wget遞歸下載

  • 遞歸下載

GNU Wget能夠遍歷鏈接和目錄結構的Web部分(或單個http或ftp服務器)。 我們將此稱為遞歸檢索或遞歸。

使用http urls,Wget從給定的URL檢索和解析html或css,檢索文檔引用的文件,通過href或src等標記,或使用'url()'功能表示法指定的css uri值。 如果新下載的文件也是text / html,application / xhtml + xml或text / css類型,它將被解析並進一步跟蹤。

http和html / css內容的遞歸檢索是廣度優先的 這意味着Wget首先下載所請求的文檔,然后是從該文檔鏈接的文檔,然后是由它們鏈接的文檔,依此類推。 換句話說,Wget首先下載深度為1的文檔,然后下載深度為2的文檔,依此類推,直到達到指定的最大深度。

可以使用'-l'選項指定檢索可以下降的最大深度。 默認最大深度為五層。

在遞歸檢索ftp url時,Wget將從遠程服務器上的給定目錄樹(包括指定深度的子目錄)中檢索所有數據,並在本地創建其鏡像。 ftp檢索也受深度參數的限制。 與http遞歸不同,ftp遞歸是深度優先執行的。

默認情況下,Wget將創建一個本地目錄樹,對應於遠程服務器上找到的目錄樹。

....剪斷....

應謹慎使用遞歸檢索。 不要說你沒有被警告過。


從我自己的基本測試開始,當結構深度為1時,它按照從頁面頂部到底部的外觀順序排列:

[ 16:28 root@host /var/www/html ]# cat index.html
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html lang="en-US">
    <head>
        <link rel="stylesheet" type="text/css" href="style.css">
    </head>
    <body>
        <div style="text-align:center;">
            <h2>Mobile Test Page</h2>
        </div>
        <a href="/c.htm">c</a>
        <a href="/a.htm">a</a>
        <a href="/b.htm">b</a>
    </body>
</html>



[ 16:28 jon@host ~ ]$ wget -m http://98.164.214.224:8000
--2011-10-15 16:28:51--  http://98.164.214.224:8000/
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 556 [text/html]
Saving to: "98.164.214.224:8000/index.html"

100%[====================================================================================================================================================================================================>] 556         --.-K/s   in 0s

2011-10-15 16:28:51 (19.7 MB/s) - "98.164.214.224:8000/index.html" saved [556/556]

--2011-10-15 16:28:51--  http://98.164.214.224:8000/style.css
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 221 [text/css]
Saving to: "98.164.214.224:8000/style.css"

100%[====================================================================================================================================================================================================>] 221         --.-K/s   in 0s

2011-10-15 16:28:51 (777 KB/s) - "98.164.214.224:8000/style.css" saved [221/221]

--2011-10-15 16:28:51--  http://98.164.214.224:8000/c.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 0 [text/html]
Saving to: "98.164.214.224:8000/c.htm"

    [ <=>                                                                                                                                                                                                 ] 0           --.-K/s   in 0s

2011-10-15 16:28:51 (0.00 B/s) - "98.164.214.224:8000/c.htm" saved [0/0]

--2011-10-15 16:28:51--  http://98.164.214.224:8000/a.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2 [text/html]
Saving to: "98.164.214.224:8000/a.htm"

100%[====================================================================================================================================================================================================>] 2           --.-K/s   in 0s

2011-10-15 16:28:51 (102 KB/s) - "98.164.214.224:8000/a.htm" saved [2/2]

--2011-10-15 16:28:51--  http://98.164.214.224:8000/b.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2 [text/html]
Saving to: "98.164.214.224:8000/b.htm"

100%[====================================================================================================================================================================================================>] 2           --.-K/s   in 0s

2011-10-15 16:28:51 (85.8 KB/s) - "98.164.214.224:8000/b.htm" saved [2/2]

FINISHED --2011-10-15 16:28:51--
Downloaded: 5 files, 781 in 0s (2.15 MB/s)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM