[英]Nutch v Solr v Nutch+Solr
存在一個有關Stackoverflow的相關問題,但六年半前被問到。 從那以后,發生了很多變化,尤其是在Nutch。 基本上我有兩個問題。
我們如何比較Nutch和Solr?
我們需要在什么情況下以及為什么最好將兩者集成在一起並用於爬網? 與在獨立模式(或hadoop)下使用它們有何不同?
在當前階段,Nutch僅負責爬網,這意味着訪問網頁,提取內容,查找更多鏈接並重復該過程(我跳過了很多復雜的過程,但希望您能理解這個想法) 。
爬網過程的最后一步是將數據存儲在后端(ES / Solr是1.x分支上受支持的數據存儲)。 因此,在此步驟中,Solr開始發揮作用,在Nutch完成工作之后,您需要將數據存儲在某個位置,以便能夠在其上執行查詢:這是Solr的工作。
前段時間Nutch包含了編寫倒排索引的功能(如問題中所述),但決定(也是在前段時間)決定棄用此功能,而推薦使用Solr / ES(或您可以編寫任何其他存儲方式索引器插件)。 現在,索引插件是可插入的,您可以為所需的任何數據存儲編寫插件。
摘要:Nutch是搜尋器,Solr是搜索引擎,Nutch在其中存儲被搜尋的數據。
Nutch和Solr是兩回事。 當Solr負責編制索引時,Nutch只是對Web進行爬網並解析網頁的內容,即在Solr與Nutch集成時存儲由Nutch爬網的內容。
當您在爬網時必須檢索和存儲數據時,需要將Solr與Nutch集成在一起。 如果您不必存儲或編制索引,則不需要Solr。 當您要存儲Nutch爬網然后對數據執行搜索時,Solr很有用。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.