[英]solr + Heritrix
如何將solr與heritrix集成?
我想使用heritrix歸檔網站,然后使用solr在本地索引和搜索此文件。
謝謝
使用Solr索引的問題在於它是一個直接的文本索引(如果你只是抓取一個內部網站而不關心'pagerank',這可能沒問題)。
使用Nutch將為您提供更好的索引,因為它確實使用了pagerank。
NutchWAX
但是,如果您對使用Heritrix不感興趣並想要基於pagerank的搜索結果,您可以使用NutchWAX (Nutch Web Archive eXtensions)來索引Heritrix的輸出(這就是Heritrix的制造商正在做的事情)。
NutchWAX旨在用於Web存檔,但也可用於創建實時Web的搜索引擎(事實上,這更容易,因為您不會在每次重建索引期間拖動多年的數據)。
Solr的
如果您確實想使用Heritrix + Solr創建搜索網站,您應該使用自定義處理器替換Heritrix中的“ARCWriter”處理器,該處理器將頁面內容提交給Solr。
Solr端只是一個通過HTTP發布的XML文件,並且很簡單。
Heritrix的結束有點復雜,但開發人員手冊將幫助您開始為Heritrix 1.x編寫處理器(如果您使用的是--as yet--不穩定的3.x - 或已停止2.x - - 你還需要做更多的工作,因為文檔還沒有。)
Solr 1.4企業級搜索一書中有一節介紹了如何一起使用Heritrix和Solr。 基本上使用Heritrix進行爬網,然后在單獨的進程中解析歸檔文件並將其添加到Solr中。 雖然你對Nutch提供的頁面排名得分等事情感到寬容,但它確實簡化了事情,因為你的爬蟲和你的搜索引擎是獨立的工具。
這基本上是Mauricio使用的方法,將數據作為中間步驟存儲到MySQL中。 我們在Amazon EC2 AMI上發布了該書的所有來源,尋找“solrbook”。 此外,Packt的支持站點( http://www.packtpub.com/solr-1-4-enterprise-search-server )將允許您下載示例。
出於同樣的目的,我使用了你。
首先下載YouSeer.jar,然后,
java -jar YouSeer.jar http://localhost:8983/solr/update /cygdrive/d/arcs /cached 3 0
它在內部使用ArcReader讀取文檔,然后將它們上傳到Solr。 YouSeer代碼非常簡單,我不得不為我的目的修改一下。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.