繁体 English 中英

如果我们要使用Hadoop和Solr制作搜索引擎，那么NUTCH的作用是什么？

[英]What is the role of NUTCH if we are going to make a search engine using Hadoop and Solr?

原文 2012-09-06 15:57:49 2 1 solr/ hadoop/ nutch

我想制作一个搜索引擎。 我想在其中抓取一些网站并将其索引和信息存储在Hadoop中。 然后使用Solr搜索完成。 但我面临很多问题。 如果通过谷歌搜索，那么不同的人会提供不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。 这些是我的一些问题：

1）如何进行爬行？ 是否有任何使用NUTCH来完成爬行？ 如果是，那么Hadoop和NUTCH如何相互通信？

2）Solr有什么用？ 如果NUTCH完成了爬网并将其爬行的索引及其信息存储到Hadoop中，那么Solr的作用是什么？

3）我们可以使用Solr和Nutch进行搜索吗？ 如果是，那么他们将保存他们的爬行索引？

4）Solr如何与Hadoop通信？

5）如果可能的话，请逐一向我解释，我如何抓取一些网站并将其信息保存到DB（Hadoop或任何其他），然后进行搜索。

我真的很困惑。 任何帮助都会非常感激。

非常感谢提前。 :)

请帮我解决一下我的大问题

1 个解决方案

我们使用Nutch作为webcrawler和Solr在一些高效的环境中进行搜索。 所以我希望我能给你一些关于3）的信息。

这是如何运作的？ Nutch有它自己的爬行数据库和一些开始爬行的网站。 它有一些插件，你可以配置不同的东西，如pdf抓取，哪些字段将被提取的HTML网站，等等。 当抓取Nutch存储从网站提取的所有链接，并将在下一个周期跟随它们。 所有爬网结果都将存储在爬网数据库中。 在Nutch中，您可以配置一个intervall，其中已爬网的结果将过时，并且爬网程序将从定义的启动项开始。

爬网数据库中的结果将同步到solr索引。 所以你正在搜索solr索引。 Nutch只是为了从网站获取数据并将其提供给solr。

我们如何使用Lucene，Solr或Nutch创建一个简单的搜索引擎？

[英]How do we create a simple search engine using Lucene, Solr or Nutch?

如何用nutch和cassandra制作一个搜索引擎？

[英]how to make a search engine with nutch and cassandra?

hadoop上的Nutch部署不会索引到Solr

[英]Nutch deployment on hadoop will not index to solr

我们可以使用nutch和solr抓取和索引Google云端硬盘文档吗？

[英]Can we crawl and index Google Drive documents using nutch and solr?

使用Nutch履带与Solr

[英]Using Nutch crawler with Solr

有关Nutch，Hadoop，Solr，MapReduce和Mahout的信息

[英]Information on Nutch , Hadoop , Solr, MapReduce and Mahout

Apache Nutch，HBase，Hadoop，Solr，Gora中的混乱

[英]Confusion in Apache Nutch, HBase, Hadoop, Solr, Gora

如何使用Solr在hadoop集群中搜索数据库

[英]How to search on databases in a hadoop cluster using Solr

我们可以在Solr搜索引擎中搜索.txt文件吗？

[英]Can we search for .txt files in Solr search engine?

使用 Nutch Crawler 进行 Solr 索引

[英]Solr Indexing using Nutch Crawler

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 我们如何使用Lucene，Solr或Nutch创建一个简单的搜索引擎？如何用nutch和cassandra制作一个搜索引擎？ hadoop上的Nutch部署不会索引到Solr 我们可以使用nutch和solr抓取和索引Google云端硬盘文档吗？使用Nutch履带与Solr 有关Nutch，Hadoop，Solr，MapReduce和Mahout的信息 Apache Nutch，HBase，Hadoop，Solr，Gora中的混乱如何使用Solr在hadoop集群中搜索数据库我们可以在Solr搜索引擎中搜索.txt文件吗？使用 Nutch Crawler 进行 Solr 索引

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM