簡體 English 中英

如果我們要使用Hadoop和Solr制作搜索引擎，那么NUTCH的作用是什么？

[英]What is the role of NUTCH if we are going to make a search engine using Hadoop and Solr?

原文 2012-09-06 15:57:49 3 1 solr/ hadoop/ nutch

我想制作一個搜索引擎。 我想在其中抓取一些網站並將其索引和信息存儲在Hadoop中。 然后使用Solr搜索完成。 但我面臨很多問題。 如果通過谷歌搜索，那么不同的人會提供不同的建議和不同的配置方式來設置基於hadoop的搜索引擎。 這些是我的一些問題：

1）如何進行爬行？ 是否有任何使用NUTCH來完成爬行？ 如果是，那么Hadoop和NUTCH如何相互通信？

2）Solr有什么用？ 如果NUTCH完成了爬網並將其爬行的索引及其信息存儲到Hadoop中，那么Solr的作用是什么？

3）我們可以使用Solr和Nutch進行搜索嗎？ 如果是，那么他們將保存他們的爬行索引？

4）Solr如何與Hadoop通信？

5）如果可能的話，請逐一向我解釋，我如何抓取一些網站並將其信息保存到DB（Hadoop或任何其他），然后進行搜索。

我真的很困惑。 任何幫助都會非常感激。

非常感謝提前。 :)

請幫我解決一下我的大問題

1 個解決方案

我們使用Nutch作為webcrawler和Solr在一些高效的環境中進行搜索。 所以我希望我能給你一些關於3）的信息。

這是如何運作的？ Nutch有它自己的爬行數據庫和一些開始爬行的網站。 它有一些插件，你可以配置不同的東西，如pdf抓取，哪些字段將被提取的HTML網站，等等。 當抓取Nutch存儲從網站提取的所有鏈接，並將在下一個周期跟隨它們。 所有爬網結果都將存儲在爬網數據庫中。 在Nutch中，您可以配置一個intervall，其中已爬網的結果將過時，並且爬網程序將從定義的啟動項開始。

爬網數據庫中的結果將同步到solr索引。 所以你正在搜索solr索引。 Nutch只是為了從網站獲取數據並將其提供給solr。

我們如何使用Lucene，Solr或Nutch創建一個簡單的搜索引擎？

[英]How do we create a simple search engine using Lucene, Solr or Nutch?

如何用nutch和cassandra制作一個搜索引擎？

[英]how to make a search engine with nutch and cassandra?

hadoop上的Nutch部署不會索引到Solr

[英]Nutch deployment on hadoop will not index to solr

我們可以使用nutch和solr抓取和索引Google雲端硬盤文檔嗎？

[英]Can we crawl and index Google Drive documents using nutch and solr?

使用Nutch履帶與Solr

[英]Using Nutch crawler with Solr

有關Nutch，Hadoop，Solr，MapReduce和Mahout的信息

[英]Information on Nutch , Hadoop , Solr, MapReduce and Mahout

Apache Nutch，HBase，Hadoop，Solr，Gora中的混亂

[英]Confusion in Apache Nutch, HBase, Hadoop, Solr, Gora

如何使用Solr在hadoop集群中搜索數據庫

[英]How to search on databases in a hadoop cluster using Solr

我們可以在Solr搜索引擎中搜索.txt文件嗎？

[英]Can we search for .txt files in Solr search engine?

使用 Nutch Crawler 進行 Solr 索引

[英]Solr Indexing using Nutch Crawler

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 我們如何使用Lucene，Solr或Nutch創建一個簡單的搜索引擎？如何用nutch和cassandra制作一個搜索引擎？ hadoop上的Nutch部署不會索引到Solr 我們可以使用nutch和solr抓取和索引Google雲端硬盤文檔嗎？使用Nutch履帶與Solr 有關Nutch，Hadoop，Solr，MapReduce和Mahout的信息 Apache Nutch，HBase，Hadoop，Solr，Gora中的混亂如何使用Solr在hadoop集群中搜索數據庫我們可以在Solr搜索引擎中搜索.txt文件嗎？使用 Nutch Crawler 進行 Solr 索引

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM