wpull为每个warc文件创建多个唯一捕获

Question

我正在使用wpull来捕获客户站点并将其另存为WARC文件。

我遇到的问题是由于某种原因，它正在创建多个站点捕获。 有时，它仅执行一次捕获，但其他情况下，捕获范围是同一站点的2到6至15次捕获。 我认为捕获代码并不是真正的问题...

$argv[1] = 'example.com';

$command = 'wpull '.$argv[1].' --force-directories --warc-file '.$argv[1].' --no-check-certificate --no-robots --output-file '.$argv[1].'.log --no-check-certificate --no-robots --user-agent "Mozilla 2.2" --wait 0.5 --random-wait --waitretry 600 --page-requisites --recursive --span-hosts-allow linked-pages,page-requisites --escaped-fragment --strip-session-id --sitemaps --reject-regex "/login\.php" --tries 3 --retry-connrefused --retry-dns-error --timeout 60 --delete-after -D '.$argv[1].' --max-redirect 10 --warc-cdx';

$response = shell_exec($command);

但我无法弄清楚（a）是什么使它进行多次捕获，或者（b）如何迫使它捕获一次。

我试图包括一个数据库文件来恢复，以防万一这是一个内存问题，但这没有任何区别，除了阻止我连续进行多次提取。

我的测试池包含115个网址，因此我可以排除一个事实，那就是它可能是我要拉的网站上的一个问题。

wpull的选项可以在这里找到： https ://wpull.readthedocs.io/en/master/options.html

pywb和doc（显示内容）的文档可以在这里https://github.com/ikreymer/pywb

我90％的肯定这与wpull有关，但是由于我是warc newb，所以我并没有避免与将* .warc.gz文件添加到存档有关。

Answer 1

好的，-recursive在wpull中有一个奇怪的细微差别。 如果设置，它将跟随任何http：//链接并进行完全提取。 在-D site.com中添加会将这些请求限制为指定的域。

但是，这将创建一个奇怪的场景，在该场景中，它将跟踪从同一域到同一域的每个http（s）链接，并捕获它们……从而生成同一域的多个捕获。

--recursive标记不需要拉下整个URL。 仅当您要捕获网站链接到的所有内容时。

wpull为每个warc文件创建多个唯一捕获

问题描述

1 个解决方案

解决方案1
0 已采纳 2016-05-27 16:18:53

wpull为每个warc文件创建多个唯一捕获

问题描述

1 个解决方案

解决方案1 0 已采纳 2016-05-27 16:18:53

解决方案1
0 已采纳 2016-05-27 16:18:53