簡體 English 中英

我們如何使用Lucene，Solr或Nutch創建一個簡單的搜索引擎？

[英]How do we create a simple search engine using Lucene, Solr or Nutch?

原文 2008-10-21 21:15:17 8 10 lucene/ solr/ nutch

我們公司有數以千計的PDF文檔。 我們如何使用Lucene，Solr或Nutch創建一個簡單的搜索引擎？ 我們將提供一個基本的Java / JSP網頁，人們可以輸入單詞並執行基本和/或查詢，然后向他們顯示所有匹配PDF的文檔鏈接。

10 個解決方案

我對lucene運氣不錯，但它不是點擊，安裝和搜索，它確實需要一些工作。
如果您需要可以下載並安裝並在10分鍾內搜索的內容，請查看免費的Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/ ，它使用Lucene，但是打包以便配置它並且准備運行安裝，一個更容易嘗試Lucene的方法。

在Nutch中啟用Nutch + Lucene + Pdf插件是您的解決方案。 Nutch允許您通過啟用pdf插件來解析pdf。

Lucene將允許您索引已爬網和已解析的數據，Nutch具有servlet，可為您提供搜索界面。

我們對內部lans使用相同的內容。

Google Search Appliance http://www.google.com/enterprise/gsa/

Lucene系列中沒有任何項目可以原生地處理PDF，但是您可以使用實用程序，並編寫有關如何自行編寫的實例。

不管你需要做什么，Lucene都會做很多事情，但就你的時間而言，就像Tony上面所說的那樣。 成千上萬的文件真的不是那么多，所以你可以用更輕的替代品來逃避。

也就是說，我仍然建議看Solr - 它比Lucene更容易設置，支持備份，復制等，以及一個非常適合您的用例的漂亮JSON接口： http：http： //wiki.apache.org/solr/SolJSON

我想你想要一個系統來管理你的PDF文件。 請嘗試使用dspace系統。 Dspace是一個數字圖書館，它支持Lucene。 www.dspace.org。

看看電子郵件。 它包括一個工作流程，用於添加新文檔，自動索引和縮略圖PDF，並具有相當全面的全文搜索功能。 它也可以輕松定制和品牌化。

為什么重新發明輪子。 再次。

您可能會看到的一個很棒的免費搜索技術是IBM Yahoo! 免費搜索。 我不確定他們是否已經完成了使用Lucene的計划，但它仍然是使用免費搜索技術的東方之一。 我相信它可處理多達500K的文檔，並且它還支持PDF和其他非文本格式。 圖形用戶界面; 易於自定義搜索結果和基本搜索分析。 基本同義詞庫和強大的API，因此如果開箱即用的結果不符合您的喜好，您可以做任何你想做的事情。 我們已經向一些客戶提出了這個建議，這些客戶的文檔數量不到50萬，而且他們喜歡它。

在這個論壇中回答如此廣泛的問題將是艱難的。 我建議你查看Lucene in Action這本書，它以可讀的方式介紹索引和搜索的基礎知識。

鑒於您的應用，聽起來像Nutch和Solr可能沒有必要。 由於您的所有文件都在本地提供，Nutch可能沒有幫助。 如果您的查詢負載很高，Solr可以幫助您管理一組搜索者，但Lucene具有高度的性能，並且以非常可擴展的方式處理大型文檔集。

可能消耗大量精力的一個領域是使用PDF。 可以索引PDF文檔，並且Lucene有助於從PDF中提取原始文本，但根據文檔，結果的質量可能會有所不同。 通常，由於格式化指令，PDF文檔中關鍵字的上下文不清楚，並且這使得難以進行鄰近搜索或顯示命中的上下文。

如果您有Linux服務器，可以使用Beagle為它們編制索引，然后只使用它附帶的搜索功能。 它有一個（實驗性的）網絡搜索界面，它也可以連接到FireFox搜索框中。

它會自動為文件編制索引，我懷疑你會發現增強或修復beagle比將自己的搜索界面編寫到Lucene更有效。

擁有（imho）在Mac上的獨特優勢，我在較舊的G5上使用SearchLight 。 很好的網絡界面，聚焦，Mac OS的內置索引服務。

如何使用Solr / Lucene構建簡單的搜索引擎？

[英]How to build a simple search engine using Solr / Lucene?

如何在堅果-lucene搜索引擎中添加“您的意思”

[英]how to add “did you mean” in nutch-lucene search engine

Google企業搜索與Lucene / Solr / Nutch在搜索私密文檔的搜索相關性方面相比如何？

[英]How does Google Enterprise Search compare with Lucene/Solr/Nutch in search relevance for searching private documents?

我可以將搜索引擎（solr搜索或lucene搜索）集成到Maximo嗎？

[英]Can I integrate Search Engine (solr search or lucene search) into Maximo?

如何使用 Solr/Lucene 搜索值列表？

[英]How can I search on a list of values using Solr/Lucene?

如何查看使用Solr通過螺母抓取的數據？

[英]How to see data crawled by nutch using solr?

LockObtainFailedException使用solr更新Lucene搜索索引

[英]LockObtainFailedException updating Lucene search index using solr

如何使用lucene搜索單詞的一部分？

[英]How to do search of part of a word using lucene?

是否有Lucene搜索引擎（Not Solr）REST API用於查詢索引內容？

[英]Has lucene search engine (Not Solr) REST API for querying the indexed content?

我們如何進行Lucene搜索的整個站點重新索引編制

[英]How can we do whole site reindexing of lucene search

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何使用Solr / Lucene構建簡單的搜索引擎？如何在堅果-lucene搜索引擎中添加“您的意思” Google企業搜索與Lucene / Solr / Nutch在搜索私密文檔的搜索相關性方面相比如何？我可以將搜索引擎（solr搜索或lucene搜索）集成到Maximo嗎？如何使用 Solr/Lucene 搜索值列表？如何查看使用Solr通過螺母抓取的數據？ LockObtainFailedException使用solr更新Lucene搜索索引如何使用lucene搜索單詞的一部分？是否有Lucene搜索引擎（Not Solr）REST API用於查詢索引內容？我們如何進行Lucene搜索的整個站點重新索引編制

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM