繁体   English   中英

wpull为每个warc文件创建多个唯一捕获

[英]wpull creating multiple unique captures per warc file

我正在使用wpull来捕获客户站点并将其另存为WARC文件。

我遇到的问题是由于某种原因,它正在创建多个站点捕获。 有时,它仅执行一次捕获,但其他情况下,捕获范围是同一站点的2到6至15次捕获。 我认为捕获代码并不是真正的问题...

$argv[1] = 'example.com';

$command = 'wpull '.$argv[1].' --force-directories --warc-file '.$argv[1].' --no-check-certificate --no-robots --output-file '.$argv[1].'.log --no-check-certificate --no-robots --user-agent "Mozilla 2.2" --wait 0.5 --random-wait --waitretry 600 --page-requisites --recursive --span-hosts-allow linked-pages,page-requisites --escaped-fragment --strip-session-id --sitemaps --reject-regex "/login\.php" --tries 3 --retry-connrefused --retry-dns-error --timeout 60 --delete-after -D '.$argv[1].' --max-redirect 10 --warc-cdx';

$response = shell_exec($command);

但我无法弄清楚(a)是什么使它进行多次捕获,或者(b)如何迫使它捕获一次。

我试图包括一个数据库文件来恢复,以防万一这是一个内存问题,但这没有任何区别,除了阻止我连续进行多次提取。

我的测试池包含115个网址,因此我可以排除一个事实,那就是它可能是我要拉的网站上的一个问题。

wpull的选项可以在这里找到: https ://wpull.readthedocs.io/en/master/options.html

pywb和doc(显示内容)的文档可以在这里https://github.com/ikreymer/pywb

我90%的肯定这与wpull有关,但是由于我是warc newb,所以我并没有避免与将* .warc.gz文件添加到存档有关。

好的,-recursive在wpull中有一个奇怪的细微差别。 如果设置,它将跟随任何http://链接并进行完全提取。 在-D site.com中添加会将这些请求限制为指定的域。

但是,这将创建一个奇怪的场景,在该场景中,它将跟踪从同一域到同一域的每个http(s)链接,并捕获它们……从而生成同一域的多个捕获。

--recursive标记不需要拉下整个URL。 仅当您要捕获网站链接到的所有内容时。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM