簡體 English 中英

solr + Heritrix

[英]solr + Heritrix

原文 2009-11-03 03:37:15 6 4 search/ indexing/ search-engine/ solr/ web-crawler

如何將solr與heritrix集成？

我想使用heritrix歸檔網站，然后使用solr在本地索引和搜索此文件。

謝謝

4 個解決方案

使用Solr索引的問題在於它是一個直接的文本索引（如果你只是抓取一個內部網站而不關心'pagerank'，這可能沒問題）。

使用Nutch將為您提供更好的索引，因為它確實使用了pagerank。

NutchWAX

但是，如果您對使用Heritrix不感興趣並想要基於pagerank的搜索結果，您可以使用NutchWAX （Nutch Web Archive eXtensions）來索引Heritrix的輸出（這就是Heritrix的制造商正在做的事情）。

NutchWAX旨在用於Web存檔，但也可用於創建實時Web的搜索引擎（事實上，這更容易，因為您不會在每次重建索引期間拖動多年的數據）。

Solr的

如果您確實想使用Heritrix + Solr創建搜索網站，您應該使用自定義處理器替換Heritrix中的“ARCWriter”處理器，該處理器將頁面內容提交給Solr。

Solr端只是一個通過HTTP發布的XML文件，並且很簡單。

Heritrix的結束有點復雜，但開發人員手冊將幫助您開始為Heritrix 1.x編寫處理器（如果您使用的是--as yet--不穩定的3.x - 或已停止2.x - - 你還需要做更多的工作，因為文檔還沒有。）

Solr 1.4企業級搜索一書中有一節介紹了如何一起使用Heritrix和Solr。 基本上使用Heritrix進行爬網，然后在單獨的進程中解析歸檔文件並將其添加到Solr中。 雖然你對Nutch提供的頁面排名得分等事情感到寬容，但它確實簡化了事情，因為你的爬蟲和你的搜索引擎是獨立的工具。

這基本上是Mauricio使用的方法，將數據作為中間步驟存儲到MySQL中。 我們在Amazon EC2 AMI上發布了該書的所有來源，尋找“solrbook”。 此外，Packt的支持站點（ http://www.packtpub.com/solr-1-4-enterprise-search-server ）將允許您下載示例。