繁体   English   中英

Apache Nutch,HBase,Hadoop,Solr,Gora中的混乱

[英]Confusion in Apache Nutch, HBase, Hadoop, Solr, Gora

我对所有这些术语都是陌生的,并花了一些时间来理解它。 但是我有些困惑。 如果我错了,请纠正我。

Nutch:用于网络爬网,使用它我们可以爬网网页。 我们可以将这些网页存储在db中的某个位置。

Solr:Solr可用于索引Apache Nutch爬行的网页。 它有助于搜索索引网页。

HBase:用作与Hadoop交互的接口。 它有助于从HDFS实时获取数据。 它提供了用于交互的简单SQL类型接口。

Hadoop:它提供两种功能:一种是HDFS(Hadoop数据文件系统),另一种是采用Google算法提供的Map-Reduce功能。 它基本上用于离线数据备份等。

Gora和ZooKeeper:我不确定。

困惑:1)。 HBase是键值对数据库还是仅仅是Hadoop的接口? 或者我应该问,没有Hadoop的HBase是否可以存在? 如果是,您能否进一步解释其用法。

2)。 在没有索引到Solr的情况下,使用Apache Nutch进行爬网数据有没有用?

3)。 为了运行apache,我们需要HBase和Hadoop吗? 如果没有,我们如何使它不起作用?

4)。 Hadoop是HBase的一部分吗?

  1. 这是关于HBase与Hadoop的简短讨论: HBase与Hadoop / HDFS之间的区别

因为HBase是基于Hadoop构建的,所以没有Hadoop就无法真正拥有HBase。

  1. 是的,您可以在没有Solr的情况下运行Nutch; 似乎没有很多用例,但是,很少有活用的例子。

  2. 是的,您可以在不使用Hadoop的情况下运行Nutch,但同样,在现实世界中,似乎没有很多人这样做。

  3. 是的,Hadoop是HBase的一部分,因为没有Hadoop,就没有HBase,但是Hadoop当然也用于其他用途。

Zookeeper用于Hadoop堆栈工作流程中的配置,命名,同步等。 Gora是一个内存管理/持久性框架,建立在Hadoop之上。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM