![](/img/trans.png)
[英]How do we create a simple search engine using Lucene, Solr or Nutch?
[英]What is the role of NUTCH if we are going to make a search engine using Hadoop and Solr?
我想制作一個搜索引擎。 我想在其中抓取一些網站並將其索引和信息存儲在Hadoop中。 然后使用Solr搜索完成。 但我面臨很多問題。 如果通過谷歌搜索,那么不同的人會提供不同的建議和不同的配置方式來設置基於hadoop的搜索引擎。 這些是我的一些問題:
1)如何進行爬行? 是否有任何使用NUTCH來完成爬行? 如果是,那么Hadoop和NUTCH如何相互通信?
2)Solr有什么用? 如果NUTCH完成了爬網並將其爬行的索引及其信息存儲到Hadoop中,那么Solr的作用是什么?
3)我們可以使用Solr和Nutch進行搜索嗎? 如果是,那么他們將保存他們的爬行索引?
4)Solr如何與Hadoop通信?
5)如果可能的話,請逐一向我解釋,我如何抓取一些網站並將其信息保存到DB(Hadoop或任何其他),然后進行搜索。
我真的很困惑。 任何幫助都會非常感激。
非常感謝提前。 :)
請幫我解決一下我的大問題
我們使用Nutch作為webcrawler和Solr在一些高效的環境中進行搜索。 所以我希望我能給你一些關於3)的信息。
這是如何運作的? Nutch有它自己的爬行數據庫和一些開始爬行的網站。 它有一些插件,你可以配置不同的東西,如pdf抓取,哪些字段將被提取的HTML網站,等等。 當抓取Nutch存儲從網站提取的所有鏈接,並將在下一個周期跟隨它們。 所有爬網結果都將存儲在爬網數據庫中。 在Nutch中,您可以配置一個intervall,其中已爬網的結果將過時,並且爬網程序將從定義的啟動項開始。
爬網數據庫中的結果將同步到solr索引。 所以你正在搜索solr索引。 Nutch只是為了從網站獲取數據並將其提供給solr。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.