簡體   English   中英

如何在摘要爬網中包括以前排除的URL

[英]How to include previously excluded URLS in a nutch crawl

使用Nutch 2.1

在最初的爬網期間,我排除了一些URL以限制要爬網的頁面數。 現在,當我從regex-urlfilter.txt中刪除那些拒絕規則並運行以下命令時,我沒有得到那些過濾后的網址:

bin/nutch updatedb
bin/nutch generate
bin/nutch fetch -all

我想念什么?

這篇關於胡說八道的用戶組的帖子可能會幫助您實現這一目標。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM