Nutch並未從seed.txt中檢索所有URL

Question

我是Nutch和Solr的新手。 目前，我想抓取一個網站，其內容是

由ASP生成。 由於內容不是靜態的，所以我創建了一個seed.txt

包含我要抓取的所有URL。 例如：

http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...

regex-urlfilter.txt具有以下過濾器：

# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/

我使用以下命令開始抓取：

/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10

seed.txt包含40,000多個URL。 但是，我發現許多URL內容都不是

可以由Solr找到。

題：

謝謝！

Answer 1

在nutch配置文件中檢出屬性db.max.outlinks.per.page 。
此屬性的默認值為100，因此，從seeds.txt中只能提取100個網址，其余的將被跳過。
將此值更改為更高的值，以掃描和索引所有URL。

Answer 2

topN指示應提取多少個生成的鏈接。 您可能已經生成了100個鏈接，但是如果將topN設置為12，則將僅獲取，解析和索引這些鏈接中的12個。