簡體 English 中英

Nutch抓取命令

[英]Nutch crawl command

原文 2013-10-25 14:07:44 9 1 solr/ web-crawler/ nutch

對於Nutch 2.2.1，我知道兩個抓取命令-bin / nutch（逐步），bin / crawl（全部合為一體）

我知道如何為bin/crawl命令指定爬網ID。 同樣，如何為bin/nutch命令指定爬網ID？

我問的原因是，我使用指定爬網ID的all-in-one crawl command "bin/crawl"運行了一個大型爬網作業，在Solr中為第9個爬網迭代建立索引時，它中斷了。 現在，我只想為中斷的第9次迭代運行一個"bin/nutch solrindex"命令，以完成solr索引"bin/nutch solrindex" 。 如何在“ bin/nutch solrindex ”命令中指定crawlID？ 語法是什么？

我將所有爬網數據存儲在HBase表“ webpage_test”中

1 個解決方案

您可以運行bin / nutch solrindex並在參數中傳遞爬網和段文件夾。

Nutch將索引所有文檔，但不會創建重復文檔，因為它將使用ID字段來確定是否已插入文檔。

Nutch 1.11抓取問題

[英]Nutch 1.11 crawl Issue

獲取Nutch抓取的狀態？

[英]Getting status of a Nutch crawl?

如何在Nutch中抓取圖像？

[英]How to crawl images in Nutch?

Nutch抓取無效

[英]Nutch Crawl does not working

Nutch 抓取腳本

[英]Nutch Crawl Script

Nutch抓取-刪除每個抓取含義上的細分

[英]Nutch Crawl - Deleting segments on each crawl implications

螺母會爬過表格嗎？

[英]Does nutch crawl over forms?

抓取Deep Web中的Nutch 2.3.1

[英]Nutch 2.3.1 in crawl Deep Web

使用Apache Nutch抓取圖像

[英]Crawl Image using Apache Nutch

在Nutch 1.11中找不到Nutch conf / crawl-urlfilter.txt

[英]Nutch conf/crawl-urlfilter.txt not found in Nutch 1.11

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Nutch 1.11抓取問題獲取Nutch抓取的狀態？如何在Nutch中抓取圖像？ Nutch抓取無效 Nutch 抓取腳本 Nutch抓取-刪除每個抓取含義上的細分螺母會爬過表格嗎？抓取Deep Web中的Nutch 2.3.1 使用Apache Nutch抓取圖像在Nutch 1.11中找不到Nutch conf / crawl-urlfilter.txt

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM