[英]How can wget save only certains file types linked to from pages linked to by the target page?
[英]wget --warc-file gets only main page and robot pages?
我正在嘗試在一個小的 WARC 文件上做一個小項目。 我使用了這個命令:
[ ! -f course.warc.gz ] && wget -r -l 3 "https://www.ru.nl/datascience/" --delete-after --no-directories --warc-file="course" || echo Most likely, course.warc.gz already exists
我第一次運行它時,一切都很順利,價值超過 150 頁,太棒了。 現在我想從頭開始重做,所以我刪除了文件“course.warc.gz”; 問題是,當我現在運行相同的命令時,我得到 3 個頁面:請求的頁面和要引導的兩個機器人頁面。 為什么會這樣?
Wget 可以跟隨 HTML 中的鏈接,[...] 這有時被稱為“遞歸下載”。 在這樣做的同時,Wget 尊重機器人排除標准 (/robots.txt)。 ( wget手冊)
robots.txt包含以下規則:
# Block alle andere spiders
User-agent: *
Disallow: /
很難回答在上次運行 wget 期間是否發生了什么。 也許 robots.txt 改變了?
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.