[英]how to inject urls found during crawl into nutch seed list
我已經在CentOS Linux版本7.3.1611上集成了胡麻1.13和solr-6.6.0,我在種子列表中給出了大約10個網址,它們位於/usr/local/apache-nutch-1.13/urls/seed.txt中,我遵循了教程我使用的命令是
/usr/local/apache-nutch-1.13/bin/crawl -i -D solr.server.url = httpxxx:8983 / solr / nutch / /usr/local/apache-nutch-1.13/urls/抓取100
2.如何知道我的crawdb是否在增長? 大約一個月了,我在solr上獲得的唯一結果是來自種子列表及其鏈接。
3.我在crontab -e中設置了上述命令,並完成了計划任務。 現在,我多次獲得相同的鏈接,以換取搜索查詢。 如何避免solr中出現重復結果?
我是一個新手,任何其他信息都將有所幫助。
1.似乎要運行一兩個小時。 我在solr中得到了相應的結果。 但是在抓取階段,似乎在終端屏幕中提取並解析了許多網址。 為什么不將它們添加到種子列表。
種子文件永遠不會被螺母修改,它只是注射階段的只讀用途。
2.如何知道我的crawdb是否在增長?
您應該看一下readdb -stats選項,在這里應該得到類似的內容
crawl.CrawlDbReader - Statistics for CrawlDb: test/crawldb
crawl.CrawlDbReader - TOTAL urls: 5584
crawl.CrawlDbReader - shortest fetch interval: 30 days, 00:00:00
crawl.CrawlDbReader - avg fetch interval: 30 days, 01:14:16
crawl.CrawlDbReader - longest fetch interval: 42 days, 00:00:00
crawl.CrawlDbReader - earliest fetch time: Tue Nov 07 09:50:00 CET 2017
crawl.CrawlDbReader - avg of fetch times: Tue Nov 14 11:26:00 CET 2017
crawl.CrawlDbReader - latest fetch time: Tue Dec 19 09:45:00 CET 2017
crawl.CrawlDbReader - retry 0: 5584
crawl.CrawlDbReader - min score: 0.0
crawl.CrawlDbReader - avg score: 5.463825E-4
crawl.CrawlDbReader - max score: 1.013
crawl.CrawlDbReader - status 1 (db_unfetched): 4278
crawl.CrawlDbReader - status 2 (db_fetched): 1014
crawl.CrawlDbReader - status 4 (db_redir_temp): 116
crawl.CrawlDbReader - status 5 (db_redir_perm): 19
crawl.CrawlDbReader - status 6 (db_notmodified): 24
我一直做的一個好技巧是將此命令放入循環內nutch(bin / crawl)提供的爬網腳本中
for for ((a=1; ; a++))
do
...
> echo "stats"
> __bin_nutch readdb "$CRAWL_PATH"/crawldb -stats
done
大約一個月了,我在solr上獲得的唯一結果是來自種子列表及其鏈接。
原因多種多樣,您應該檢查每個階段的輸出並查看漏斗的運行方式。
3.我在crontab -e中設置了上述命令,並完成了計划任務。 現在,我多次獲得相同的鏈接,以換取搜索查詢。 如何避免solr中出現重復結果?
猜猜您已經使用了默認的Solr模式,請檢查url vs. id字段。 據我所知,id是URL的唯一標識符(可能會重定向內容)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.