[英]Nutch didn't crawl all URLs from the seed.txt
我是Nutch和Solr的新手。 目前,我想抓取一個網站,其內容是
由ASP生成。 由於內容不是靜態的,所以我創建了一個seed.txt
包含我要抓取的所有URL。 例如:
http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...
regex-urlfilter.txt具有以下過濾器:
# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/
我使用以下命令開始抓取:
/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10
seed.txt包含40,000多個URL。 但是,我發現許多URL內容都不是
可以由Solr找到。
題:
這種方法對於較大的seed.txt是否可行?
如何檢查網址是否已被抓取?
seed.txt是否有大小限制?
謝謝 !
在nutch配置文件中檢出屬性db.max.outlinks.per.page
。
此屬性的默認值為100,因此,從seeds.txt中只能提取100個網址,其余的將被跳過。
將此值更改為更高的值,以掃描和索引所有URL。
topN指示應提取多少個生成的鏈接。 您可能已經生成了100個鏈接,但是如果將topN設置為12,則將僅獲取,解析和索引這些鏈接中的12個。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.