簡體   English   中英

我們如何使用Lucene,Solr或Nutch創建一個簡單的搜索引擎?

[英]How do we create a simple search engine using Lucene, Solr or Nutch?

我們公司有數以千計的PDF文檔。 我們如何使用Lucene,Solr或Nutch創建一個簡單的搜索引擎? 我們將提供一個基本的Java / JSP網頁,人們可以輸入單詞並執行基本和/或查詢,然后向他們顯示所有匹配PDF的文檔鏈接。

我對lucene運氣不錯,但它不是點擊,安裝和搜索,它確實需要一些工作。
如果您需要可以下載並安裝並在10分鍾內搜索的內容,請查看免費的Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/ ,它使用Lucene,但是打包以便配置它並且准備運行安裝,一個更容易嘗試Lucene的方法。

在Nutch中啟用Nutch + Lucene + Pdf插件是您的解決方案。 Nutch允許您通過啟用pdf插件來解析pdf。

Lucene將允許您索引已爬網和已解析的數據,Nutch具有servlet,可為您提供搜索界面。

我們對內部lans使用相同的內容。

Google Search Appliance http://www.google.com/enterprise/gsa/

Lucene系列中沒有任何項目可以原生地處理PDF,但是您可以使用實用程序,並編寫有關如何自行編寫的實例。

不管你需要做什么,Lucene都會做很多事情,但就你的時間而言,就像Tony上面所說的那樣。 成千上萬的文件真的不是那么多,所以你可以用更輕的替代品來逃避。

也就是說,我仍然建議看Solr - 它比Lucene更容易設置,支持備份,復制等,以及一個非常適合您的用例的漂亮JSON接口: http:http: //wiki.apache.org/solr/SolJSON

我想你想要一個系統來管理你的PDF文件。 請嘗試使用dspace系統。 Dspace是一個數字圖書館,它支持Lucene。 www.dspace.org。

看看電子郵件 它包括一個工作流程,用於添加新文檔,自動索引和縮略圖PDF,並具有相當全面的全文搜索功能。 它也可以輕松定制和品牌化。

為什么重新發明輪子。 再次。

您可能會看到的一個很棒的免費搜索技術是IBM Yahoo! 免費搜索。 我不確定他們是否已經完成了使用Lucene的計划,但它仍然是使用免費搜索技術的東方之一。 我相信它可處理多達500K的文檔,並且它還支持PDF和其他非文本格式。 圖形用戶界面; 易於自定義搜索結果和基本搜索分析。 基本同義詞庫和強大的API,因此如果開箱即用的結果不符合您的喜好,您可以做任何你想做的事情。 我們已經向一些客戶提出了這個建議,這些客戶的文檔數量不到50萬,而且他們喜歡它。

在這個論壇中回答如此廣泛的問題將是艱難的。 我建議你查看Lucene in Action這本書它以可讀的方式介紹索引和搜索的基礎知識。

鑒於您的應用,聽起來像Nutch和Solr可能沒有必要。 由於您的所有文件都在本地提供,Nutch可能沒有幫助。 如果您的查詢負載很高,Solr可以幫助您管理一組搜索者,但Lucene具有高度的性能,並且以非常可擴展的方式處理大型文檔集。

可能消耗大量精力的一個領域是使用PDF。 可以索引PDF文檔,並且Lucene有助於從PDF中提取原始文本 ,但根據文檔,結果的質量可能會有所不同。 通常,由於格式化指令,PDF文檔中關鍵字的上下文不清楚,並且這使得難以進行鄰近搜索或顯示命中的上下文。

如果您有Linux服務器,可以使用Beagle為它們編制索引,然后只使用它附帶的搜索功能。 它有一個(實驗性的)網絡搜索界面,它也可以連接到FireFox搜索框中。

它會自動為文件編制索引,我懷疑你會發現增強或修復beagle比將自己的搜索界面編寫到Lucene更有效。

擁有(imho)在Mac上的獨特優勢,我在較舊的G5上使用SearchLight 很好的網絡界面,聚焦,Mac OS的內置索引服務。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM