wget --warc-file 只獲取主頁和機器人頁面？

Question

我正在嘗試在一個小的 WARC 文件上做一個小項目。 我使用了這個命令：

[ ! -f course.warc.gz ] && wget -r -l 3 "https://www.ru.nl/datascience/" --delete-after --no-directories --warc-file="course" || echo Most likely, course.warc.gz already exists

我第一次運行它時，一切都很順利，價值超過 150 頁，太棒了。 現在我想從頭開始重做，所以我刪除了文件“course.warc.gz”； 問題是，當我現在運行相同的命令時，我得到 3 個頁面：請求的頁面和要引導的兩個機器人頁面。 為什么會這樣？

Answer 1

Wget 可以跟隨 HTML 中的鏈接，[...] 這有時被稱為“遞歸下載”。 在這樣做的同時，Wget 尊重機器人排除標准 (/robots.txt)。 （ wget手冊）

robots.txt包含以下規則：

# Block alle andere spiders
User-agent: *
Disallow: /

很難回答在上次運行 wget 期間是否發生了什么。 也許 robots.txt 改變了？

wget --warc-file 只獲取主頁和機器人頁面？

問題描述

1 個解決方案

解決方案1
0 2022-05-21 09:17:24

wget --warc-file 只獲取主頁和機器人頁面？

問題描述

1 個解決方案

解決方案1 0 2022-05-21 09:17:24

解決方案1
0 2022-05-21 09:17:24