簡體   English   中英

Nutch抓取命令

[英]Nutch crawl command

對於Nutch 2.2.1,我知道兩個抓取命令-bin / nutch(逐步),bin / crawl(全部合為一體)

我知道如何為bin/crawl命令指定爬網ID。 同樣,如何為bin/nutch命令指定爬網ID?

我問的原因是,我使用指定爬網ID的all-in-one crawl command "bin/crawl"運行了一個大型爬網作業,在Solr中為第9個爬網迭代建立索引時,它中斷了。 現在,我只想為中斷的第9次迭代運行一個"bin/nutch solrindex"命令,以完成solr索引"bin/nutch solrindex" 如何在“ bin/nutch solrindex ”命令中指定crawlID? 語法是什么?

我將所有爬網數據存儲在HBase表“ webpage_test”中

您可以運行bin / nutch solrindex並在參數中傳遞爬網和段文件夾。

Nutch將索引所有文檔,但不會創建重復文檔,因為它將使用ID字段來確定是否已插入文檔。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM