繁体   English   中英

我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎?

[英]How do we create a simple search engine using Lucene, Solr or Nutch?

我们公司有数以千计的PDF文档。 我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎? 我们将提供一个基本的Java / JSP网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配PDF的文档链接。

我对lucene运气不错,但它不是点击,安装和搜索,它确实需要一些工作。
如果您需要可以下载并安装并在10分钟内搜索的内容,请查看免费的Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/ ,它使用Lucene,但是打包以便配置它并且准备运行安装,一个更容易尝试Lucene的方法。

在Nutch中启用Nutch + Lucene + Pdf插件是您的解决方案。 Nutch允许您通过启用pdf插件来解析pdf。

Lucene将允许您索引已爬网和已解析的数据,Nutch具有servlet,可为您提供搜索界面。

我们对内部lans使用相同的内容。

Google Search Appliance http://www.google.com/enterprise/gsa/

Lucene系列中没有任何项目可以原生地处理PDF,但是您可以使用实用程序,并编写有关如何自行编写的实例。

不管你需要做什么,Lucene都会做很多事情,但就你的时间而言,就像Tony上面所说的那样。 成千上万的文件真的不是那么多,所以你可以用更轻的替代品来逃避。

也就是说,我仍然建议看Solr - 它比Lucene更容易设置,支持备份,复制等,以及一个非常适合您的用例的漂亮JSON接口: http:http: //wiki.apache.org/solr/SolJSON

我想你想要一个系统来管理你的PDF文件。 请尝试使用dspace系统。 Dspace是一个数字图书馆,它支持Lucene。 www.dspace.org。

看看电子邮件 它包括一个工作流程,用于添加新文档,自动索引和缩略图PDF,并具有相当全面的全文搜索功能。 它也可以轻松定制和品牌化。

为什么重新发明轮子。 再次。

您可能会看到的一个很棒的免费搜索技术是IBM Yahoo! 免费搜索。 我不确定他们是否已经完成了使用Lucene的计划,但它仍然是使用免费搜索技术的东方之一。 我相信它可处理多达500K的文档,并且它还支持PDF和其他非文本格式。 图形用户界面; 易于自定义搜索结果和基本搜索分析。 基本同义词库和强大的API,因此如果开箱即用的结果不符合您的喜好,您可以做任何你想做的事情。 我们已经向一些客户提出了这个建议,这些客户的文档数量不到50万,而且他们喜欢它。

在这个论坛中回答如此广泛的问题将是艰难的。 我建议你查看Lucene in Action这本书它以可读的方式介绍索引和搜索的基础知识。

鉴于您的应用,听起来像Nutch和Solr可能没有必要。 由于您的所有文件都在本地提供,Nutch可能没有帮助。 如果您的查询负载很高,Solr可以帮助您管理一组搜索者,但Lucene具有高度的性能,并且以非常可扩展的方式处理大型文档集。

可能消耗大量精力的一个领域是使用PDF。 可以索引PDF文档,并且Lucene有助于从PDF中提取原始文本 ,但根据文档,结果的质量可能会有所不同。 通常,由于格式化指令,PDF文档中关键字的上下文不清楚,并且这使得难以进行邻近搜索或显示命中的上下文。

如果您有Linux服务器,可以使用Beagle为它们编制索引,然后只使用它附带的搜索功能。 它有一个(实验性的)网络搜索界面,它也可以连接到FireFox搜索框中。

它会自动为文件编制索引,我怀疑你会发现增强或修复beagle比将自己的搜索界面编写到Lucene更有效。

拥有(imho)在Mac上的独特优势,我在较旧的G5上使用SearchLight 很好的网络界面,聚焦,Mac OS的内置索引服务。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM