![](/img/trans.png)
[英]How can wget save only certains file types linked to from pages linked to by the target page?
[英]wget --warc-file gets only main page and robot pages?
我正在尝试在一个小的 WARC 文件上做一个小项目。 我使用了这个命令:
[ ! -f course.warc.gz ] && wget -r -l 3 "https://www.ru.nl/datascience/" --delete-after --no-directories --warc-file="course" || echo Most likely, course.warc.gz already exists
我第一次运行它时,一切都很顺利,价值超过 150 页,太棒了。 现在我想从头开始重做,所以我删除了文件“course.warc.gz”; 问题是,当我现在运行相同的命令时,我得到 3 个页面:请求的页面和要引导的两个机器人页面。 为什么会这样?
Wget 可以跟随 HTML 中的链接,[...] 这有时被称为“递归下载”。 在这样做的同时,Wget 尊重机器人排除标准 (/robots.txt)。 ( wget手册)
robots.txt包含以下规则:
# Block alle andere spiders
User-agent: *
Disallow: /
很难回答在上次运行 wget 期间是否发生了什么。 也许 robots.txt 改变了?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.