![](/img/trans.png)
[英]Apache Nutch is crawling few domain more and other less with default configuration
[英]Nutch is crawling only few links in a given domain
在帶有ubuntu 12.04的Nutch 1.9中出現問題。 我正在嘗試抓取網站上可用的鏈接。 我已在seed.txt文件中提供了網站網址。 除了http.agent.name(新)屬性和db.max.outlinks.per.page(-1),我沒有對默認配置進行任何更改。 我正在使用以下命令進行爬網
crawl urls test -depth 3
搜尋器應該搜尋3深度之內的所有可用鏈接。但是,當我運行以下linkdb命令時,只有5個鏈接可用。 主頁上提供了所有五個鏈接
nutch readlinkdb test/linkdb -dump myoutput/out1<br/>
我是否錯過任何配置更改? 請幫幫我。
使用-topN
設置每個級別要爬網的url的數量:
bin / nutch抓取$ URLS -dir $ CRAWL_LOC -depth 3 -topN 1000
在Nutch 1.10中,db.ignore.internal.links默認為true,這意味着鏈接db將不包含內部鏈接,而僅包含外部鏈接。 如果您尚未更改默認設置,則鏈接數據庫將不會反映爬網的程度。 如果希望它包含這些鏈接,則可以在配置文件中將此屬性的值更改為false。
如果要查看所有已爬網的鏈接,請轉儲爬網數據庫。 在1.10中,這是通過以下方式完成的:
bin/nutch readdb MyCrawl/crawldb/ -dump crawlout
我不確定1.9和1.10之間有什么區別,但是我想這些命令是相似的。 (1.10發行說明並不表示內部鏈接的處理已更改。)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.