簡體   English   中英

solr + Heritrix

[英]solr + Heritrix

如何將solr與heritrix集成?

我想使用heritrix歸檔網站,然后使用solr在本地索引和搜索此文件。

謝謝

使用Solr索引的問題在於它是一個直接的文本索引(如果你只是抓取一個內部網站而不關心'pagerank',這可能沒問題)。

使用Nutch將為您提供更好的索引,因為它確實使用了pagerank。

NutchWAX

但是,如果您對使用Heritrix不感興趣想要基於pagerank的搜索結果,您可以使用NutchWAX (Nutch Web Archive eXtensions)來索引Heritrix的輸出(這就是Heritrix的制造商正在做的事情)。

NutchWAX旨在用於Web存檔,但也可用於創建實時Web的搜索引擎(事實上,這更容易,因為您不會在每次重建索引期間拖動多年的數據)。

Solr的

如果您確實想使用Heritrix + Solr創建搜索網站,您應該使用自定義處理器替換Heritrix中的“ARCWriter”處理器,該處理器將頁面內容提交給Solr。

Solr端只是一個通過HTTP發布的XML文件,並且很簡單。

Heritrix的結束有點復雜,但開發人員手冊將幫助您開始為Heritrix 1.x編寫處理器(如果您使用的是--as yet--不穩定的3.x - 或已停止2.x - - 你還需要做更多的工作,因為文檔還沒有。)

Solr 1.4企業級搜索一書中有一節介紹了如何一起使用Heritrix和Solr。 基本上使用Heritrix進行爬網,然后在單獨的進程中解析歸檔文件並將其添加到Solr中。 雖然你對Nutch提供的頁面排名得分等事情感到寬容,但它確實簡化了事情,因為你的爬蟲和你的搜索引擎是獨立的工具。

這基本上是Mauricio使用的方法,將數據作為中間步驟存儲到MySQL中。 我們在Amazon EC2 AMI上發布了該書的所有來源,尋找“solrbook”。 此外,Packt的支持站點( http://www.packtpub.com/solr-1-4-enterprise-search-server )將允許您下載示例。

出於同樣的目的,我使用了你。

首先下載YouSeer.jar,然后,

java -jar YouSeer.jar http://localhost:8983/solr/update /cygdrive/d/arcs /cached 3 0

它在內部使用ArcReader讀取文檔,然后將它們上傳到Solr。 YouSeer代碼非常簡單,我不得不為我的目的修改一下。

根據這條消息 ,是的:

將自定義編寫器添加到Heritrix非常容易。 我們將爬行寫入MySQL,然后從那里攝取到Solr。 然而,編寫一個直接寫入Solr的Heritrix編寫器並不難。

- 肖恩蒂姆

或者你可能想要使用Nutch ,在將其與Solr集成方面還有更多的工作要做:

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM