簡體   English   中英

Nutch並未從seed.txt中檢索所有URL

[英]Nutch didn't crawl all URLs from the seed.txt

我是Nutch和Solr的新手。 目前,我想抓取一個網站,其內容是

由ASP生成。 由於內容不是靜態的,所以我創建了一個seed.txt

包含我要抓取的所有URL。 例如:

http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...

regex-urlfilter.txt具有以下過濾器:

# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/

我使用以下命令開始抓取:

/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10

seed.txt包含40,000多個URL。 但是,我發現許多URL內容都不是

可以由Solr找到。

題:

  1. 這種方法對於較大的seed.txt是否可行?

  2. 如何檢查網址是否已被抓取?

  3. seed.txt是否有大小限制?

謝謝 !

在nutch配置文件中檢出屬性db.max.outlinks.per.page
此屬性的默認值為100,因此,從seeds.txt中只能提取100個網址,其余的將被跳過。
將此值更改為更高的值,以掃描和索引所有URL。

topN指示應提取多少個生成的鏈接。 您可能已經生成了100個鏈接,但是如果將topN設置為12,則將僅獲取,解析和索引這些鏈接中的12個。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM