[英]Nutch crawl command
對於Nutch 2.2.1,我知道兩個抓取命令-bin / nutch(逐步),bin / crawl(全部合為一體)
我知道如何為bin/crawl
命令指定爬網ID。 同樣,如何為bin/nutch
命令指定爬網ID?
我問的原因是,我使用指定爬網ID的all-in-one crawl command "bin/crawl"
運行了一個大型爬網作業,在Solr中為第9個爬網迭代建立索引時,它中斷了。 現在,我只想為中斷的第9次迭代運行一個"bin/nutch solrindex"
命令,以完成solr索引"bin/nutch solrindex"
。 如何在“ bin/nutch solrindex
”命令中指定crawlID? 語法是什么?
我將所有爬網數據存儲在HBase表“ webpage_test”中
您可以運行bin / nutch solrindex並在參數中傳遞爬網和段文件夾。
Nutch將索引所有文檔,但不會創建重復文檔,因為它將使用ID字段來確定是否已插入文檔。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.