[英]solr + Heritrix
如何将solr与heritrix集成?
我想使用heritrix归档网站,然后使用solr在本地索引和搜索此文件。
谢谢
使用Solr索引的问题在于它是一个直接的文本索引(如果你只是抓取一个内部网站而不关心'pagerank',这可能没问题)。
使用Nutch将为您提供更好的索引,因为它确实使用了pagerank。
NutchWAX
但是,如果您对使用Heritrix不感兴趣并想要基于pagerank的搜索结果,您可以使用NutchWAX (Nutch Web Archive eXtensions)来索引Heritrix的输出(这就是Heritrix的制造商正在做的事情)。
NutchWAX旨在用于Web存档,但也可用于创建实时Web的搜索引擎(事实上,这更容易,因为您不会在每次重建索引期间拖动多年的数据)。
Solr的
如果您确实想使用Heritrix + Solr创建搜索网站,您应该使用自定义处理器替换Heritrix中的“ARCWriter”处理器,该处理器将页面内容提交给Solr。
Solr端只是一个通过HTTP发布的XML文件,并且很简单。
Heritrix的结束有点复杂,但开发人员手册将帮助您开始为Heritrix 1.x编写处理器(如果您使用的是--as yet--不稳定的3.x - 或已停止2.x - - 你还需要做更多的工作,因为文档还没有。)
Solr 1.4企业级搜索一书中有一节介绍了如何一起使用Heritrix和Solr。 基本上使用Heritrix进行爬网,然后在单独的进程中解析归档文件并将其添加到Solr中。 虽然你对Nutch提供的页面排名得分等事情感到宽容,但它确实简化了事情,因为你的爬虫和你的搜索引擎是独立的工具。
这基本上是Mauricio使用的方法,将数据作为中间步骤存储到MySQL中。 我们在Amazon EC2 AMI上发布了该书的所有来源,寻找“solrbook”。 此外,Packt的支持站点( http://www.packtpub.com/solr-1-4-enterprise-search-server )将允许您下载示例。
出于同样的目的,我使用了你。
首先下载YouSeer.jar,然后,
java -jar YouSeer.jar http://localhost:8983/solr/update /cygdrive/d/arcs /cached 3 0
它在内部使用ArcReader读取文档,然后将它们上传到Solr。 YouSeer代码非常简单,我不得不为我的目的修改一下。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.