簡體 English 中英

Nutch v Solr v Nutch + Solr

[英]Nutch v Solr v Nutch+Solr

原文 2016-12-30 18:05:03 1 2 hadoop/ solr/ web-scraping/ web-crawler/ nutch

存在一個有關Stackoverflow的相關問題，但六年半前被問到。 從那以后，發生了很多變化，尤其是在Nutch。 基本上我有兩個問題。

我們如何比較Nutch和Solr？
我們需要在什么情況下以及為什么最好將兩者集成在一起並用於爬網？ 與在獨立模式（或hadoop）下使用它們有何不同？

2 個解決方案

在當前階段，Nutch僅負責爬網，這意味着訪問網頁，提取內容，查找更多鏈接並重復該過程（我跳過了很多復雜的過程，但希望您能理解這個想法）。

爬網過程的最后一步是將數據存儲在后端（ES / Solr是1.x分支上受支持的數據存儲）。 因此，在此步驟中，Solr開始發揮作用，在Nutch完成工作之后，您需要將數據存儲在某個位置，以便能夠在其上執行查詢：這是Solr的工作。

前段時間Nutch包含了編寫倒排索引的功能（如問題中所述），但決定（也是在前段時間）決定棄用此功能，而推薦使用Solr / ES（或您可以編寫任何其他存儲方式索引器插件）。 現在，索引插件是可插入的，您可以為所需的任何數據存儲編寫插件。

摘要：Nutch是搜尋器，Solr是搜索引擎，Nutch在其中存儲被搜尋的數據。

Nutch和Solr是兩回事。 當Solr負責編制索引時，Nutch只是對Web進行爬網並解析網頁的內容，即在Solr與Nutch集成時存儲由Nutch爬網的內容。
當您在爬網時必須檢索和存儲數據時，需要將Solr與Nutch集成在一起。 如果您不必存儲或編制索引，則不需要Solr。 當您要存儲Nutch爬網然后對數據執行搜索時，Solr很有用。

無法將Solr與Nutch集成

[英]Can't Integrate Solr with Nutch

有關Nutch，Hadoop，Solr，MapReduce和Mahout的信息

[英]Information on Nutch , Hadoop , Solr, MapReduce and Mahout

Apache Nutch，HBase，Hadoop，Solr，Gora中的混亂

[英]Confusion in Apache Nutch, HBase, Hadoop, Solr, Gora

Nutch + Solr僅限頂級頁面

[英]Nutch + Solr on top level page only

Hodoop + Nutch 1.15 + Solr Cloud 7.3.1索引無結果

[英]Hodoop + Nutch 1.15 + Solr Cloud 7.3.1 index no result

堅果1.10作業失敗，錯誤請求錯誤索引到solr 5.3.1

[英]nutch 1.10 job failed, bad request error indexing to solr 5.3.1

Nutch無法刪除重復項（在一個Solr內核上，但在另一個內核上）

[英]Nutch failing on deleting duplicates (on one solr core but not another)

在Amazon Web Services和本地上集成Solr + Hadoop和Nutch + Hbase

[英]Integrating Solr + Hadoop and Nutch + Hbase on Amazon Web Services and Local

將Apache Nutch 2.3與Hbase 0.94.14和Solr 5.2.1集成時出錯

[英]Error while Integrating Apache Nutch 2.3 with Hbase 0.94.14 and Solr 5.2.1

Nutch + Solr-清潔需要很長時間才能完成

[英]Nutch + Solr - Clean takes a very long time to complete

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 無法將Solr與Nutch集成有關Nutch，Hadoop，Solr，MapReduce和Mahout的信息 Apache Nutch，HBase，Hadoop，Solr，Gora中的混亂 Nutch + Solr僅限頂級頁面 Hodoop + Nutch 1.15 + Solr Cloud 7.3.1索引無結果堅果1.10作業失敗，錯誤請求錯誤索引到solr 5.3.1 Nutch無法刪除重復項（在一個Solr內核上，但在另一個內核上）在Amazon Web Services和本地上集成Solr + Hadoop和Nutch + Hbase 將Apache Nutch 2.3與Hbase 0.94.14和Solr 5.2.1集成時出錯 Nutch + Solr-清潔需要很長時間才能完成

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM