[英]Nutch crawl command
对于Nutch 2.2.1,我知道两个抓取命令-bin / nutch(逐步),bin / crawl(全部合为一体)
我知道如何为bin/crawl
命令指定爬网ID。 同样,如何为bin/nutch
命令指定爬网ID?
我问的原因是,我使用指定爬网ID的all-in-one crawl command "bin/crawl"
运行了一个大型爬网作业,在Solr中为第9个爬网迭代建立索引时,它中断了。 现在,我只想为中断的第9次迭代运行一个"bin/nutch solrindex"
命令,以完成solr索引"bin/nutch solrindex"
。 如何在“ bin/nutch solrindex
”命令中指定crawlID? 语法是什么?
我将所有爬网数据存储在HBase表“ webpage_test”中
您可以运行bin / nutch solrindex并在参数中传递爬网和段文件夹。
Nutch将索引所有文档,但不会创建重复文档,因为它将使用ID字段来确定是否已插入文档。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.