[英]WGet's Logic in Order of Downloading
这是一个更普遍的问题,但它对我正在运行的数据挖掘项目有更广泛的影响。 我一直在使用wget镜像归档网页进行分析。 这是一个大量的数据,我目前的镜像过程已经持续了将近一个星期。 这给了我很多时间来观看读数。
wget如何确定下载页面的顺序? 我似乎无法辨别其决策制定过程的一致性逻辑(它不按字母顺序,按原始网站创建日期或文件类型进行)。 当我开始处理数据时,这将非常有助于掌握。
FWIW,这是我正在使用的命令(它需要cookie,而网站的TOS允许以任何方式“访问”我不想冒任何机会) - 其中SITE = URL:
wget -m --cookies=on --keep-session-cookies --load-cookies=cookie3.txt --save-cookies=cookie4.txt --referer=SITE --random-wait --wait=1 --limit-rate=30K --user-agent="Mozilla 4.0" SITE
编辑添加:在对Chown的有用答案的评论中,我稍微改进了我的问题,所以在这里。 有更大的网站 - 比如epe.lac-bac.gc.ca/100/205/301/ic/cdc/E/Alphabet.asp - 我发现它最初创建了一个目录结构和一些index.html / default.html页面,然后再回到不同的网站几次(例如,在每次传递时抓取更多的图像和子页面)
来自gnu.org wget递归下载 :
- 递归下载
GNU Wget能够遍历链接和目录结构的Web部分(或单个http或ftp服务器)。 我们将此称为递归检索或递归。
使用http urls,Wget从给定的URL检索和解析html或css,检索文档引用的文件,通过href或src等标记,或使用'url()'功能表示法指定的css uri值。 如果新下载的文件也是text / html,application / xhtml + xml或text / css类型,它将被解析并进一步跟踪。
http和html / css内容的递归检索是广度优先的 。 这意味着Wget首先下载所请求的文档,然后是从该文档链接的文档,然后是由它们链接的文档,依此类推。 换句话说,Wget首先下载深度为1的文档,然后下载深度为2的文档,依此类推,直到达到指定的最大深度。
可以使用'-l'选项指定检索可以下降的最大深度。 默认最大深度为五层。
在递归检索ftp url时,Wget将从远程服务器上的给定目录树(包括指定深度的子目录)中检索所有数据,并在本地创建其镜像。 ftp检索也受深度参数的限制。 与http递归不同,ftp递归是深度优先执行的。
默认情况下,Wget将创建一个本地目录树,对应于远程服务器上找到的目录树。
....剪断....
应谨慎使用递归检索。 不要说你没有被警告过。
从我自己的基本测试开始,当结构深度为1时,它按照从页面顶部到底部的外观顺序排列:
[ 16:28 root@host /var/www/html ]# cat index.html
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html lang="en-US">
<head>
<link rel="stylesheet" type="text/css" href="style.css">
</head>
<body>
<div style="text-align:center;">
<h2>Mobile Test Page</h2>
</div>
<a href="/c.htm">c</a>
<a href="/a.htm">a</a>
<a href="/b.htm">b</a>
</body>
</html>
[ 16:28 jon@host ~ ]$ wget -m http://98.164.214.224:8000
--2011-10-15 16:28:51-- http://98.164.214.224:8000/
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 556 [text/html]
Saving to: "98.164.214.224:8000/index.html"
100%[====================================================================================================================================================================================================>] 556 --.-K/s in 0s
2011-10-15 16:28:51 (19.7 MB/s) - "98.164.214.224:8000/index.html" saved [556/556]
--2011-10-15 16:28:51-- http://98.164.214.224:8000/style.css
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 221 [text/css]
Saving to: "98.164.214.224:8000/style.css"
100%[====================================================================================================================================================================================================>] 221 --.-K/s in 0s
2011-10-15 16:28:51 (777 KB/s) - "98.164.214.224:8000/style.css" saved [221/221]
--2011-10-15 16:28:51-- http://98.164.214.224:8000/c.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 0 [text/html]
Saving to: "98.164.214.224:8000/c.htm"
[ <=> ] 0 --.-K/s in 0s
2011-10-15 16:28:51 (0.00 B/s) - "98.164.214.224:8000/c.htm" saved [0/0]
--2011-10-15 16:28:51-- http://98.164.214.224:8000/a.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2 [text/html]
Saving to: "98.164.214.224:8000/a.htm"
100%[====================================================================================================================================================================================================>] 2 --.-K/s in 0s
2011-10-15 16:28:51 (102 KB/s) - "98.164.214.224:8000/a.htm" saved [2/2]
--2011-10-15 16:28:51-- http://98.164.214.224:8000/b.htm
Connecting to 98.164.214.224:8000... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2 [text/html]
Saving to: "98.164.214.224:8000/b.htm"
100%[====================================================================================================================================================================================================>] 2 --.-K/s in 0s
2011-10-15 16:28:51 (85.8 KB/s) - "98.164.214.224:8000/b.htm" saved [2/2]
FINISHED --2011-10-15 16:28:51--
Downloaded: 5 files, 781 in 0s (2.15 MB/s)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.