如何將在爬網期間找到的URL注入到種子種子列表中

Question

我已經在CentOS Linux版本7.3.1611上集成了胡麻1.13和solr-6.6.0，我在種子列表中給出了大約10個網址，它們位於/usr/local/apache-nutch-1.13/urls/seed.txt中，我遵循了教程我使用的命令是

/usr/local/apache-nutch-1.13/bin/crawl -i -D solr.server.url = httpxxx：8983 / solr / nutch / /usr/local/apache-nutch-1.13/urls/抓取100

它似乎要運行一兩個小時。 我在solr中得到了相應的結果。 但是在抓取階段，似乎在終端屏幕中提取並解析了許多網址。 為什么不將它們添加到種子列表。

2.如何知道我的crawdb是否在增長？ 大約一個月了，我在solr上獲得的唯一結果是來自種子列表及其鏈接。

3.我在crontab -e中設置了上述命令，並完成了計划任務。 現在，我多次獲得相同的鏈接，以換取搜索查詢。 如何避免solr中出現重復結果？

我是一個新手，任何其他信息都將有所幫助。

Answer 1

1.似乎要運行一兩個小時。 我在solr中得到了相應的結果。 但是在抓取階段，似乎在終端屏幕中提取並解析了許多網址。 為什么不將它們添加到種子列表。

種子文件永遠不會被螺母修改，它只是注射階段的只讀用途。

2.如何知道我的crawdb是否在增長？

您應該看一下readdb -stats選項，在這里應該得到類似的內容

crawl.CrawlDbReader - Statistics for CrawlDb: test/crawldb
crawl.CrawlDbReader - TOTAL urls: 5584
crawl.CrawlDbReader - shortest fetch interval:    30 days, 00:00:00
crawl.CrawlDbReader - avg fetch interval: 30 days, 01:14:16
crawl.CrawlDbReader - longest fetch interval:     42 days, 00:00:00
crawl.CrawlDbReader - earliest fetch time:        Tue Nov 07 09:50:00 CET 2017
crawl.CrawlDbReader - avg of fetch times: Tue Nov 14 11:26:00 CET 2017
crawl.CrawlDbReader - latest fetch time:  Tue Dec 19 09:45:00 CET 2017
crawl.CrawlDbReader - retry 0:    5584
crawl.CrawlDbReader - min score:  0.0
crawl.CrawlDbReader - avg score:  5.463825E-4
crawl.CrawlDbReader - max score:  1.013
crawl.CrawlDbReader - status 1 (db_unfetched):    4278
crawl.CrawlDbReader - status 2 (db_fetched):      1014
crawl.CrawlDbReader - status 4 (db_redir_temp):   116
crawl.CrawlDbReader - status 5 (db_redir_perm):   19
crawl.CrawlDbReader - status 6 (db_notmodified):  24

我一直做的一個好技巧是將此命令放入循環內nutch（bin / crawl）提供的爬網腳本中

for for ((a=1; ; a++))
do
...
> echo "stats"
> __bin_nutch readdb "$CRAWL_PATH"/crawldb -stats
done

大約一個月了，我在solr上獲得的唯一結果是來自種子列表及其鏈接。

原因多種多樣，您應該檢查每個階段的輸出並查看漏斗的運行方式。

3.我在crontab -e中設置了上述命令，並完成了計划任務。 現在，我多次獲得相同的鏈接，以換取搜索查詢。 如何避免solr中出現重復結果？

猜猜您已經使用了默認的Solr模式，請檢查url vs. id字段。 據我所知，id是URL的唯一標識符（可能會重定向內容）

如何將在爬網期間找到的URL注入到種子種子列表中

問題描述

1 個解決方案

解決方案1
0 2017-11-07 15:40:43

如何將在爬網期間找到的URL注入到種子種子列表中

問題描述

1 個解決方案

解決方案1 0 2017-11-07 15:40:43

解決方案1
0 2017-11-07 15:40:43