[英]Is there anyway to log the list of urls 'ignored' in Nutch crawl?
我正在使用Nutch来抓取深度为100和topN 10,000的种子文件中指定的URL列表,以确保完全抓取。 另外,我正在尝试使用regex-urlfilter http://rubular.com/r/oSkwqGHrri忽略路径中包含重复字符串的网址
但是,我很想知道在爬网期间哪些URL被忽略了。 无论如何,我可以在Nutch爬行时记录“忽略”的网址列表吗?
可以使用以下命令找到链接
bin / nutch readdb PATH_TO_CRAWL_DB -stats -sort -dump DUMP_FOLDER -format csv
这将在dump_folder中生成part-00000文件,该文件将分别包含URL列表及其状态。
搜寻器将忽略状态为db_unfetched的那些文件。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.