繁体 English 中英

我们如何使用Lucene，Solr或Nutch创建一个简单的搜索引擎？

[英]How do we create a simple search engine using Lucene, Solr or Nutch?

原文 2008-10-21 21:15:17 4 10 lucene/ solr/ nutch

我们公司有数以千计的PDF文档。 我们如何使用Lucene，Solr或Nutch创建一个简单的搜索引擎？ 我们将提供一个基本的Java / JSP网页，人们可以输入单词并执行基本和/或查询，然后向他们显示所有匹配PDF的文档链接。

10 个解决方案

我对lucene运气不错，但它不是点击，安装和搜索，它确实需要一些工作。
如果您需要可以下载并安装并在10分钟内搜索的内容，请查看免费的Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/ ，它使用Lucene，但是打包以便配置它并且准备运行安装，一个更容易尝试Lucene的方法。

在Nutch中启用Nutch + Lucene + Pdf插件是您的解决方案。 Nutch允许您通过启用pdf插件来解析pdf。

Lucene将允许您索引已爬网和已解析的数据，Nutch具有servlet，可为您提供搜索界面。

我们对内部lans使用相同的内容。

Google Search Appliance http://www.google.com/enterprise/gsa/

Lucene系列中没有任何项目可以原生地处理PDF，但是您可以使用实用程序，并编写有关如何自行编写的实例。

不管你需要做什么，Lucene都会做很多事情，但就你的时间而言，就像Tony上面所说的那样。 成千上万的文件真的不是那么多，所以你可以用更轻的替代品来逃避。

也就是说，我仍然建议看Solr - 它比Lucene更容易设置，支持备份，复制等，以及一个非常适合您的用例的漂亮JSON接口： http：http： //wiki.apache.org/solr/SolJSON

我想你想要一个系统来管理你的PDF文件。 请尝试使用dspace系统。 Dspace是一个数字图书馆，它支持Lucene。 www.dspace.org。

看看电子邮件。 它包括一个工作流程，用于添加新文档，自动索引和缩略图PDF，并具有相当全面的全文搜索功能。 它也可以轻松定制和品牌化。

为什么重新发明轮子。 再次。

您可能会看到的一个很棒的免费搜索技术是IBM Yahoo! 免费搜索。 我不确定他们是否已经完成了使用Lucene的计划，但它仍然是使用免费搜索技术的东方之一。 我相信它可处理多达500K的文档，并且它还支持PDF和其他非文本格式。 图形用户界面; 易于自定义搜索结果和基本搜索分析。 基本同义词库和强大的API，因此如果开箱即用的结果不符合您的喜好，您可以做任何你想做的事情。 我们已经向一些客户提出了这个建议，这些客户的文档数量不到50万，而且他们喜欢它。

在这个论坛中回答如此广泛的问题将是艰难的。 我建议你查看Lucene in Action这本书，它以可读的方式介绍索引和搜索的基础知识。

鉴于您的应用，听起来像Nutch和Solr可能没有必要。 由于您的所有文件都在本地提供，Nutch可能没有帮助。 如果您的查询负载很高，Solr可以帮助您管理一组搜索者，但Lucene具有高度的性能，并且以非常可扩展的方式处理大型文档集。

可能消耗大量精力的一个领域是使用PDF。 可以索引PDF文档，并且Lucene有助于从PDF中提取原始文本，但根据文档，结果的质量可能会有所不同。 通常，由于格式化指令，PDF文档中关键字的上下文不清楚，并且这使得难以进行邻近搜索或显示命中的上下文。

如果您有Linux服务器，可以使用Beagle为它们编制索引，然后只使用它附带的搜索功能。 它有一个（实验性的）网络搜索界面，它也可以连接到FireFox搜索框中。

它会自动为文件编制索引，我怀疑你会发现增强或修复beagle比将自己的搜索界面编写到Lucene更有效。

拥有（imho）在Mac上的独特优势，我在较旧的G5上使用SearchLight 。 很好的网络界面，聚焦，Mac OS的内置索引服务。

如何使用Solr / Lucene构建简单的搜索引擎？

[英]How to build a simple search engine using Solr / Lucene?

如何在坚果-lucene搜索引擎中添加“您的意思”

[英]how to add “did you mean” in nutch-lucene search engine

Google企业搜索与Lucene / Solr / Nutch在搜索私密文档的搜索相关性方面相比如何？

[英]How does Google Enterprise Search compare with Lucene/Solr/Nutch in search relevance for searching private documents?

我可以将搜索引擎（solr搜索或lucene搜索）集成到Maximo吗？

[英]Can I integrate Search Engine (solr search or lucene search) into Maximo?

如何使用 Solr/Lucene 搜索值列表？

[英]How can I search on a list of values using Solr/Lucene?

如何查看使用Solr通过螺母抓取的数据？

[英]How to see data crawled by nutch using solr?

LockObtainFailedException使用solr更新Lucene搜索索引

[英]LockObtainFailedException updating Lucene search index using solr

如何使用lucene搜索单词的一部分？

[英]How to do search of part of a word using lucene?

是否有Lucene搜索引擎（Not Solr）REST API用于查询索引内容？

[英]Has lucene search engine (Not Solr) REST API for querying the indexed content?

我们如何进行Lucene搜索的整个站点重新索引编制

[英]How can we do whole site reindexing of lucene search

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用Solr / Lucene构建简单的搜索引擎？如何在坚果-lucene搜索引擎中添加“您的意思” Google企业搜索与Lucene / Solr / Nutch在搜索私密文档的搜索相关性方面相比如何？我可以将搜索引擎（solr搜索或lucene搜索）集成到Maximo吗？如何使用 Solr/Lucene 搜索值列表？如何查看使用Solr通过螺母抓取的数据？ LockObtainFailedException使用solr更新Lucene搜索索引如何使用lucene搜索单词的一部分？是否有Lucene搜索引擎（Not Solr）REST API用于查询索引内容？我们如何进行Lucene搜索的整个站点重新索引编制

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM