繁体   English   中英

solr + Heritrix

[英]solr + Heritrix

如何将solr与heritrix集成?

我想使用heritrix归档网站,然后使用solr在本地索引和搜索此文件。

谢谢

使用Solr索引的问题在于它是一个直接的文本索引(如果你只是抓取一个内部网站而不关心'pagerank',这可能没问题)。

使用Nutch将为您提供更好的索引,因为它确实使用了pagerank。

NutchWAX

但是,如果您对使用Heritrix不感兴趣想要基于pagerank的搜索结果,您可以使用NutchWAX (Nutch Web Archive eXtensions)来索引Heritrix的输出(这就是Heritrix的制造商正在做的事情)。

NutchWAX旨在用于Web存档,但也可用于创建实时Web的搜索引擎(事实上,这更容易,因为您不会在每次重建索引期间拖动多年的数据)。

Solr的

如果您确实想使用Heritrix + Solr创建搜索网站,您应该使用自定义处理器替换Heritrix中的“ARCWriter”处理器,该处理器将页面内容提交给Solr。

Solr端只是一个通过HTTP发布的XML文件,并且很简单。

Heritrix的结束有点复杂,但开发人员手册将帮助您开始为Heritrix 1.x编写处理器(如果您使用的是--as yet--不稳定的3.x - 或已停止2.x - - 你还需要做更多的工作,因为文档还没有。)

Solr 1.4企业级搜索一书中有一节介绍了如何一起使用Heritrix和Solr。 基本上使用Heritrix进行爬网,然后在单独的进程中解析归档文件并将其添加到Solr中。 虽然你对Nutch提供的页面排名得分等事情感到宽容,但它确实简化了事情,因为你的爬虫和你的搜索引擎是独立的工具。

这基本上是Mauricio使用的方法,将数据作为中间步骤存储到MySQL中。 我们在Amazon EC2 AMI上发布了该书的所有来源,寻找“solrbook”。 此外,Packt的支持站点( http://www.packtpub.com/solr-1-4-enterprise-search-server )将允许您下载示例。

出于同样的目的,我使用了你。

首先下载YouSeer.jar,然后,

java -jar YouSeer.jar http://localhost:8983/solr/update /cygdrive/d/arcs /cached 3 0

它在内部使用ArcReader读取文档,然后将它们上传到Solr。 YouSeer代码非常简单,我不得不为我的目的修改一下。

根据这条消息 ,是的:

将自定义编写器添加到Heritrix非常容易。 我们将爬行写入MySQL,然后从那里摄取到Solr。 然而,编写一个直接写入Solr的Heritrix编写器并不难。

- 肖恩蒂姆

或者你可能想要使用Nutch ,在将其与Solr集成方面还有更多的工作要做:

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM