繁体   English   中英

Nutch Crawl 意外被杀死的任务有什么办法可以继续执行?

[英]Is there any way to continue the Nutch Crawl task which has been killed unexpected?

我有一个 Nutch 爬网任务,该任务已经运行了一整天,直到我错误地终止了该进程。

我不想重新抓取种子(花费很多时间),所以我想知道是否有一种方法或一些 Nutch Crawler 参数可以使抓取工具忽略那些已经抓取的 url。

非常感谢 !

开始爬取后,可能会在 output 目录中创建一些段。 使用bin/nutch命令并将-dir选项指向上次运行的 output 目录。 对于urlDir参数,创建一个带有单个 url 的虚拟参数(如果 urldir 中没有任何 url,只是为了避免错误。)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM