[英]Confusion in Apache Nutch, HBase, Hadoop, Solr, Gora
我对所有这些术语都是陌生的,并花了一些时间来理解它。 但是我有些困惑。 如果我错了,请纠正我。
Nutch:用于网络爬网,使用它我们可以爬网网页。 我们可以将这些网页存储在db中的某个位置。
Solr:Solr可用于索引Apache Nutch爬行的网页。 它有助于搜索索引网页。
HBase:用作与Hadoop交互的接口。 它有助于从HDFS实时获取数据。 它提供了用于交互的简单SQL类型接口。
Hadoop:它提供两种功能:一种是HDFS(Hadoop数据文件系统),另一种是采用Google算法提供的Map-Reduce功能。 它基本上用于离线数据备份等。
Gora和ZooKeeper:我不确定。
困惑:1)。 HBase是键值对数据库还是仅仅是Hadoop的接口? 或者我应该问,没有Hadoop的HBase是否可以存在? 如果是,您能否进一步解释其用法。
2)。 在没有索引到Solr的情况下,使用Apache Nutch进行爬网数据有没有用?
3)。 为了运行apache,我们需要HBase和Hadoop吗? 如果没有,我们如何使它不起作用?
4)。 Hadoop是HBase的一部分吗?
因为HBase是基于Hadoop构建的,所以没有Hadoop就无法真正拥有HBase。
是的,您可以在没有Solr的情况下运行Nutch; 似乎没有很多用例,但是,很少有活用的例子。
是的,您可以在不使用Hadoop的情况下运行Nutch,但同样,在现实世界中,似乎没有很多人这样做。
是的,Hadoop是HBase的一部分,因为没有Hadoop,就没有HBase,但是Hadoop当然也用于其他用途。
Zookeeper用于Hadoop堆栈工作流程中的配置,命名,同步等。 Gora是一个内存管理/持久性框架,建立在Hadoop之上。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.