簡體   English   中英

如何將在爬網期間找到的URL注入到種子種子列表中

[英]how to inject urls found during crawl into nutch seed list

我已經在CentOS Linux版本7.3.1611上集成了胡麻1.13和solr-6.6.0,我在種子列表中給出了大約10個網址,它們位於/usr/local/apache-nutch-1.13/urls/seed.txt中,我遵循了教程我使用的命令是

/usr/local/apache-nutch-1.13/bin/crawl -i -D solr.server.url = httpxxx:8983 / solr / nutch / /usr/local/apache-nutch-1.13/urls/抓取100

  1. 它似乎要運行一兩個小時。 我在solr中得到了相應的結果。 但是在抓取階段,似乎在終端屏幕中提取並解析了許多網址。 為什么不將它們添加到種子列表。

2.如何知道我的crawdb是否在增長? 大約一個月了,我在solr上獲得的唯一結果是來自種子列表及其鏈接。

3.我在crontab -e中設置了上述命令,並完成了計划任務。 現在,我多次獲得相同的鏈接,以換取搜索查詢。 如何避免solr中出現重復結果?

我是一個新手,任何其他信息都將有所幫助。

1.似乎要運行一兩個小時。 我在solr中得到了相應的結果。 但是在抓取階段,似乎在終端屏幕中提取並解析了許多網址。 為什么不將它們添加到種子列表。

種子文件永遠不會被螺母修改,它只是注射階段的只讀用途。

2.如何知道我的crawdb是否在增長?

您應該看一下readdb -stats選項,在這里應該得到類似的內容

crawl.CrawlDbReader - Statistics for CrawlDb: test/crawldb
crawl.CrawlDbReader - TOTAL urls: 5584
crawl.CrawlDbReader - shortest fetch interval:    30 days, 00:00:00
crawl.CrawlDbReader - avg fetch interval: 30 days, 01:14:16
crawl.CrawlDbReader - longest fetch interval:     42 days, 00:00:00
crawl.CrawlDbReader - earliest fetch time:        Tue Nov 07 09:50:00 CET 2017
crawl.CrawlDbReader - avg of fetch times: Tue Nov 14 11:26:00 CET 2017
crawl.CrawlDbReader - latest fetch time:  Tue Dec 19 09:45:00 CET 2017
crawl.CrawlDbReader - retry 0:    5584
crawl.CrawlDbReader - min score:  0.0
crawl.CrawlDbReader - avg score:  5.463825E-4
crawl.CrawlDbReader - max score:  1.013
crawl.CrawlDbReader - status 1 (db_unfetched):    4278
crawl.CrawlDbReader - status 2 (db_fetched):      1014
crawl.CrawlDbReader - status 4 (db_redir_temp):   116
crawl.CrawlDbReader - status 5 (db_redir_perm):   19
crawl.CrawlDbReader - status 6 (db_notmodified):  24

我一直做的一個好技巧是將此命令放入循環內nutch(bin / crawl)提供的爬網腳本中

for for ((a=1; ; a++))
do
...
> echo "stats"
> __bin_nutch readdb "$CRAWL_PATH"/crawldb -stats
done

大約一個月了,我在solr上獲得的唯一結果是來自種子列表及其鏈接。

原因多種多樣,您應該檢查每個階段的輸出並查看漏斗的運行方式。

3.我在crontab -e中設置了上述命令,並完成了計划任務。 現在,我多次獲得相同的鏈接,以換取搜索查詢。 如何避免solr中出現重復結果?

猜猜您已經使用了默認的Solr模式,請檢查url vs. id字段。 據我所知,id是URL的唯一標識符(可能會重定向內容)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM