繁体   English   中英

如果我们要使用Hadoop和Solr制作搜索引擎,那么NUTCH的作用是什么?

[英]What is the role of NUTCH if we are going to make a search engine using Hadoop and Solr?

我想制作一个搜索引擎。 我想在其中抓取一些网站并将其索引和信息存储在Hadoop中。 然后使用Solr搜索完成。 但我面临很多问题。 如果通过谷歌搜索,那么不同的人会提供不同的建议和不同的配置方式来设置基于hadoop的搜索引擎。 这些是我的一些问题:

1)如何进行爬行? 是否有任何使用NUTCH来完成爬行? 如果是,那么Hadoop和NUTCH如何相互通信?

2)Solr有什么用? 如果NUTCH完成了爬网并将其爬行的索引及其信息存储到Hadoop中,那么Solr的作用是什么?

3)我们可以使用Solr和Nutch进行搜索吗? 如果是,那么他们将保存他们的爬行索引?

4)Solr如何与Hadoop通信?

5)如果可能的话,请逐一向我解释,我如何抓取一些网站并将其信息保存到DB(Hadoop或任何其他),然后进行搜索。

我真的很困惑。 任何帮助都会非常感激。

非常感谢提前。 :)

请帮我解决一下我的大问题

我们使用Nutch作为webcrawler和Solr在一些高效的环境中进行搜索。 所以我希望我能给你一些关于3)的信息。

这是如何运作的? Nutch有它自己的爬行数据库和一些开始爬行的网站。 它有一些插件,你可以配置不同的东西,如pdf抓取,哪些字段将被提取的HTML网站,等等。 当抓取Nutch存储从网站提取的所有链接,并将在下一个周期跟随它们。 所有爬网结果都将存储在爬网数据库中。 在Nutch中,您可以配置一个intervall,其中已爬网的结果将过时,并且爬网程序将从定义的启动项开始。

爬网数据库中的结果将同步到solr索引。 所以你正在搜索solr索引。 Nutch只是为了从网站获取数据并将其提供给solr。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM