簡體   English   中英

如果我們要使用Hadoop和Solr制作搜索引擎,那么NUTCH的作用是什么?

[英]What is the role of NUTCH if we are going to make a search engine using Hadoop and Solr?

我想制作一個搜索引擎。 我想在其中抓取一些網站並將其索引和信息存儲在Hadoop中。 然后使用Solr搜索完成。 但我面臨很多問題。 如果通過谷歌搜索,那么不同的人會提供不同的建議和不同的配置方式來設置基於hadoop的搜索引擎。 這些是我的一些問題:

1)如何進行爬行? 是否有任何使用NUTCH來完成爬行? 如果是,那么Hadoop和NUTCH如何相互通信?

2)Solr有什么用? 如果NUTCH完成了爬網並將其爬行的索引及其信息存儲到Hadoop中,那么Solr的作用是什么?

3)我們可以使用Solr和Nutch進行搜索嗎? 如果是,那么他們將保存他們的爬行索引?

4)Solr如何與Hadoop通信?

5)如果可能的話,請逐一向我解釋,我如何抓取一些網站並將其信息保存到DB(Hadoop或任何其他),然后進行搜索。

我真的很困惑。 任何幫助都會非常感激。

非常感謝提前。 :)

請幫我解決一下我的大問題

我們使用Nutch作為webcrawler和Solr在一些高效的環境中進行搜索。 所以我希望我能給你一些關於3)的信息。

這是如何運作的? Nutch有它自己的爬行數據庫和一些開始爬行的網站。 它有一些插件,你可以配置不同的東西,如pdf抓取,哪些字段將被提取的HTML網站,等等。 當抓取Nutch存儲從網站提取的所有鏈接,並將在下一個周期跟隨它們。 所有爬網結果都將存儲在爬網數據庫中。 在Nutch中,您可以配置一個intervall,其中已爬網的結果將過時,並且爬網程序將從定義的啟動項開始。

爬網數據庫中的結果將同步到solr索引。 所以你正在搜索solr索引。 Nutch只是為了從網站獲取數據並將其提供給solr。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM