Nutch僅在給定域中搜尋很少的鏈接

Question

在帶有ubuntu 12.04的Nutch 1.9中出現問題。 我正在嘗試抓取網站上可用的鏈接。 我已在seed.txt文件中提供了網站網址。 除了http.agent.name（新）屬性和db.max.outlinks.per.page（-1），我沒有對默認配置進行任何更改。 我正在使用以下命令進行爬網
crawl urls test -depth 3
搜尋器應該搜尋3深度之內的所有可用鏈接。但是，當我運行以下linkdb命令時，只有5個鏈接可用。 主頁上提供了所有五個鏈接

nutch readlinkdb test/linkdb -dump myoutput/out1<br/>

我是否錯過任何配置更改？ 請幫幫我。

Answer 1

使用-topN設置每個級別要爬網的url的數量：

bin / nutch抓取$ URLS -dir $ CRAWL_LOC -depth 3 -topN 1000

Answer 2

在Nutch 1.10中，db.ignore.internal.links默認為true，這意味着鏈接db將不包含內部鏈接，而僅包含外部鏈接。 如果您尚未更改默認設置，則鏈接數據庫將不會反映爬網的程度。 如果希望它包含這些鏈接，則可以在配置文件中將此屬性的值更改為false。

如果要查看所有已爬網的鏈接，請轉儲爬網數據庫。 在1.10中，這是通過以下方式完成的：

bin/nutch readdb MyCrawl/crawldb/ -dump crawlout

我不確定1.9和1.10之間有什么區別，但是我想這些命令是相似的。 （1.10發行說明並不表示內部鏈接的處理已更改。）

Nutch僅在給定域中搜尋很少的鏈接

問題描述

2 個解決方案

解決方案1
0 2014-11-07 11:57:54

解決方案2
0 2015-07-14 20:10:07

Nutch僅在給定域中搜尋很少的鏈接

問題描述

2 個解決方案

解決方案1 0 2014-11-07 11:57:54

解決方案2 0 2015-07-14 20:10:07

解決方案1
0 2014-11-07 11:57:54

解決方案2
0 2015-07-14 20:10:07