簡體   English   中英

wpull為每個warc文件創建多個唯一捕獲

[英]wpull creating multiple unique captures per warc file

我正在使用wpull來捕獲客戶站點並將其另存為WARC文件。

我遇到的問題是由於某種原因,它正在創建多個站點捕獲。 有時,它僅執行一次捕獲,但其他情況下,捕獲范圍是同一站點的2到6至15次捕獲。 我認為捕獲代碼並不是真正的問題...

$argv[1] = 'example.com';

$command = 'wpull '.$argv[1].' --force-directories --warc-file '.$argv[1].' --no-check-certificate --no-robots --output-file '.$argv[1].'.log --no-check-certificate --no-robots --user-agent "Mozilla 2.2" --wait 0.5 --random-wait --waitretry 600 --page-requisites --recursive --span-hosts-allow linked-pages,page-requisites --escaped-fragment --strip-session-id --sitemaps --reject-regex "/login\.php" --tries 3 --retry-connrefused --retry-dns-error --timeout 60 --delete-after -D '.$argv[1].' --max-redirect 10 --warc-cdx';

$response = shell_exec($command);

但我無法弄清楚(a)是什么使它進行多次捕獲,或者(b)如何迫使它捕獲一次。

我試圖包括一個數據庫文件來恢復,以防萬一這是一個內存問題,但這沒有任何區別,除了阻止我連續進行多次提取。

我的測試池包含115個網址,因此我可以排除一個事實,那就是它可能是我要拉的網站上的一個問題。

wpull的選項可以在這里找到: https ://wpull.readthedocs.io/en/master/options.html

pywb和doc(顯示內容)的文檔可以在這里https://github.com/ikreymer/pywb

我90%的肯定這與wpull有關,但是由於我是warc newb,所以我並沒有避免與將* .warc.gz文件添加到存檔有關。

好的,-recursive在wpull中有一個奇怪的細微差別。 如果設置,它將跟隨任何http://鏈接並進行完全提取。 在-D site.com中添加會將這些請求限制為指定的域。

但是,這將創建一個奇怪的場景,在該場景中,它將跟蹤從同一域到同一域的每個http(s)鏈接,並捕獲它們……從而生成同一域的多個捕獲。

--recursive標記不需要拉下整個URL。 僅當您要捕獲網站鏈接到的所有內容時。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM