wpull為每個warc文件創建多個唯一捕獲

Question

我正在使用wpull來捕獲客戶站點並將其另存為WARC文件。

我遇到的問題是由於某種原因，它正在創建多個站點捕獲。 有時，它僅執行一次捕獲，但其他情況下，捕獲范圍是同一站點的2到6至15次捕獲。 我認為捕獲代碼並不是真正的問題...

$argv[1] = 'example.com';

$command = 'wpull '.$argv[1].' --force-directories --warc-file '.$argv[1].' --no-check-certificate --no-robots --output-file '.$argv[1].'.log --no-check-certificate --no-robots --user-agent "Mozilla 2.2" --wait 0.5 --random-wait --waitretry 600 --page-requisites --recursive --span-hosts-allow linked-pages,page-requisites --escaped-fragment --strip-session-id --sitemaps --reject-regex "/login\.php" --tries 3 --retry-connrefused --retry-dns-error --timeout 60 --delete-after -D '.$argv[1].' --max-redirect 10 --warc-cdx';

$response = shell_exec($command);

但我無法弄清楚（a）是什么使它進行多次捕獲，或者（b）如何迫使它捕獲一次。

我試圖包括一個數據庫文件來恢復，以防萬一這是一個內存問題，但這沒有任何區別，除了阻止我連續進行多次提取。

我的測試池包含115個網址，因此我可以排除一個事實，那就是它可能是我要拉的網站上的一個問題。

wpull的選項可以在這里找到： https ://wpull.readthedocs.io/en/master/options.html

pywb和doc（顯示內容）的文檔可以在這里https://github.com/ikreymer/pywb

我90％的肯定這與wpull有關，但是由於我是warc newb，所以我並沒有避免與將* .warc.gz文件添加到存檔有關。

Answer 1

好的，-recursive在wpull中有一個奇怪的細微差別。 如果設置，它將跟隨任何http：//鏈接並進行完全提取。 在-D site.com中添加會將這些請求限制為指定的域。

但是，這將創建一個奇怪的場景，在該場景中，它將跟蹤從同一域到同一域的每個http（s）鏈接，並捕獲它們……從而生成同一域的多個捕獲。

--recursive標記不需要拉下整個URL。 僅當您要捕獲網站鏈接到的所有內容時。

wpull為每個warc文件創建多個唯一捕獲

問題描述

1 個解決方案

解決方案1
0 已采納 2016-05-27 16:18:53

wpull為每個warc文件創建多個唯一捕獲

問題描述

1 個解決方案

解決方案1 0 已采納 2016-05-27 16:18:53

解決方案1
0 已采納 2016-05-27 16:18:53