簡體   English   中英

Nutch僅在給定域中搜尋很少的鏈接

[英]Nutch is crawling only few links in a given domain

在帶有ubuntu 12.04的Nutch 1.9中出現問題。 我正在嘗試抓取網站上可用的鏈接。 我已在seed.txt文件中提供了網站網址。 除了http.agent.name(新)屬性和db.max.outlinks.per.page(-1),我沒有對默認配置進行任何更改。 我正在使用以下命令進行爬網
crawl urls test -depth 3
搜尋器應該搜尋3深度之內的所有可用鏈接。但是,當我運行以下linkdb命令時,只有5個鏈接可用。 主頁上提供了所有五個鏈接

nutch readlinkdb test/linkdb -dump myoutput/out1<br/>

我是否錯過任何配置更改? 請幫幫我。

使用-topN設置每個級別要爬網的url的數量:

bin / nutch抓取$ URLS -dir $ CRAWL_LOC -depth 3 -topN 1000

在Nutch 1.10中,db.ignore.internal.links默認為true,這意味着鏈接db將不包含內部鏈接,而僅包含外部鏈接。 如果您尚未更改默認設置,則鏈接數據庫將不會反映爬網的程度。 如果希望它包含這些鏈接,則可以在配置文件中將此屬性的值更改為false。

如果要查看所有已爬網的鏈接,請轉儲爬網數據庫。 在1.10中,這是通過以下方式完成的:

bin/nutch readdb MyCrawl/crawldb/ -dump crawlout

我不確定1.9和1.10之間有什么區別,但是我想這些命令是相似的。 (1.10發行說明並不表示內部鏈接的處理已更改。)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM