繁体   English   中英

风暴搜寻器-技术堆栈和Apache Nutch

[英]storm crawler - Technology stack and Apache Nutch

我想实时抓取特定的论坛,如果不是Hbase,则将数据转储到HDFS中。

我听说Apache Nutch可以解决这个问题,但遗憾的是它需要的技术堆栈已经很老了。 我不想将hadoop从2.6降级到早期版本,而Elasticsearch降级到1.7 / 1.4,因此我将重点转移到了Storm Crawler上。

由于我使用的是Hadoop 2.6,Elasticsearch 2.0和Hbase 1.1.3,有人可以告诉我是否可以将Storm Crawler 0.9与它们一起使用?

由于您有特殊要求以近乎实时的方式爬网论坛,因此Nutch并不是实现此目的的最佳技术。 Nutch分批处理,这意味着先生成链接,然后将其提取,然后对其进行解析,但这一次不会发生。 另一方面,Storm搜寻器基于Apache Storm,这是一个免费的开源分布式实时计算系统。

Storm Crawler目前确实支持索引到Elasticsearch 1.7.2(对版本2的支持正在https://github.com/DigitalPebble/storm-crawler/tree/es2/external/elasticsearch的方式),不支持索引目前,HBase已存在,并且您无法使用hadoop设置,因为它基于Apache Storm。 尽管如此,Storm Crawler是“用于构建低延迟,可伸缩的Web爬网程序的资源集合”,因此您可以将自己的索引器螺栓写到HBase中,这应该不太难,并且可以重复使用所提供的其余资源,包括实时爬网您需要的。

@ jorge-luis已经回答了有关ElasticSearch 2的问题。有一个请求请求 ,我们正在测试中。 至于Hadoop,StormCrawler并不是基于Hadoop,而是基于Apache Storm-因此得名。 最后,当前没有用于HBase的资源,但是可以添加它。 您想将其用于什么? 我认为文档将使用ES进行索引。 您是否要在其中保留有关URLS的信息(例如Nutch中的crawldb)? 如果是这样,那么您还可以使用ES来存储状态,请查看StormCrawler中的ES模块以进行说明。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM