簡體   English   中英

有關Nutch,Hadoop,Solr,MapReduce和Mahout的信息

[英]Information on Nutch , Hadoop , Solr, MapReduce and Mahout

PS:如果我在任何行中錯了,請糾正我

我正在用Nutch和Solr構建搜索引擎。
我知道通過使用Solr,我可以提高Searching的效率-讓Nutch獨自進行整個網絡的爬網。
我也知道Hadoop用於通過形成集群和MapReduce處理PB級數據。

現在,我想知道的是
1)既然,我將僅在一台機器上運行這些開源軟件,即我的筆記本電腦在本地主機上……Hadoop在形成集群的情況下對我來說有什么好處? 僅在一台計算機上如何形成集群?

2)在我的案例中,MapReduce的重要性是什么?

3)MAHOUT,CASSANDRA和HBASE將如何影響我的引擎???

在這方面的任何幫助都非常感謝。如果我問一個菜鳥問題,對不起!
謝謝
問候

1)既然,我將僅在一台機器上運行這些開源軟件,即我的筆記本電腦在本地主機上……Hadoop在形成集群的情況下對我來說有什么好處?

Hadoop的創建是為了處理大規模數據。 Hadoop是一個分布式應用程序。 它不會在一台機器上為您提供好處。

僅在一台計算機上如何形成集群?

以偽集群模式安裝Hadoop

在我的案例中,MapReduce的重要性是什么?

同樣,如果要處理由爬網程序獲取的1000千兆字節規模的頁面。 Map-Reduce在處理如此大的數據時很有用

MAHOUT,CASSANDRA和HBASE將如何影響我的引擎???

它們是滿足不同需求的不同工具。

Mahout是適合在Hadoop或本地文件上作為map-reduce任務運行的機器學習算法。 您是否想學習Google Translate之類的語言,可以使用它。

HBase是一個非SQL數據庫,與即席分析相比,它提供了更多實時數據處理,而map-reduce更有用。

我建議您回到問題陳述中,使用所需的最少工具進行設計,當您按注釋操作時,您將了解其中一些工具何時會有用。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM