繁体 English 中英

solr + Heritrix

[英]solr + Heritrix

原文 2009-11-03 03:37:15 3 4 search/ indexing/ search-engine/ solr/ web-crawler

如何将solr与heritrix集成？

我想使用heritrix归档网站，然后使用solr在本地索引和搜索此文件。

谢谢

4 个解决方案

使用Solr索引的问题在于它是一个直接的文本索引（如果你只是抓取一个内部网站而不关心'pagerank'，这可能没问题）。

使用Nutch将为您提供更好的索引，因为它确实使用了pagerank。

NutchWAX

但是，如果您对使用Heritrix不感兴趣并想要基于pagerank的搜索结果，您可以使用NutchWAX （Nutch Web Archive eXtensions）来索引Heritrix的输出（这就是Heritrix的制造商正在做的事情）。

NutchWAX旨在用于Web存档，但也可用于创建实时Web的搜索引擎（事实上，这更容易，因为您不会在每次重建索引期间拖动多年的数据）。

Solr的

如果您确实想使用Heritrix + Solr创建搜索网站，您应该使用自定义处理器替换Heritrix中的“ARCWriter”处理器，该处理器将页面内容提交给Solr。

Solr端只是一个通过HTTP发布的XML文件，并且很简单。

Heritrix的结束有点复杂，但开发人员手册将帮助您开始为Heritrix 1.x编写处理器（如果您使用的是--as yet--不稳定的3.x - 或已停止2.x - - 你还需要做更多的工作，因为文档还没有。）

Solr 1.4企业级搜索一书中有一节介绍了如何一起使用Heritrix和Solr。 基本上使用Heritrix进行爬网，然后在单独的进程中解析归档文件并将其添加到Solr中。 虽然你对Nutch提供的页面排名得分等事情感到宽容，但它确实简化了事情，因为你的爬虫和你的搜索引擎是独立的工具。

这基本上是Mauricio使用的方法，将数据作为中间步骤存储到MySQL中。 我们在Amazon EC2 AMI上发布了该书的所有来源，寻找“solrbook”。 此外，Packt的支持站点（ http://www.packtpub.com/solr-1-4-enterprise-search-server ）将允许您下载示例。