繁体 English 中英

风暴搜寻器-技术堆栈和Apache Nutch

[英]storm crawler - Technology stack and Apache Nutch

原文 2016-04-06 04:20:07 2 2 web-crawler/ apache-storm/ nutch/ stormcrawler

我想实时抓取特定的论坛，如果不是Hbase，则将数据转储到HDFS中。

我听说Apache Nutch可以解决这个问题，但遗憾的是它需要的技术堆栈已经很老了。 我不想将hadoop从2.6降级到早期版本，而Elasticsearch降级到1.7 / 1.4，因此我将重点转移到了Storm Crawler上。

由于我使用的是Hadoop 2.6，Elasticsearch 2.0和Hbase 1.1.3，有人可以告诉我是否可以将Storm Crawler 0.9与它们一起使用？

2 个解决方案

由于您有特殊要求以近乎实时的方式爬网论坛，因此Nutch并不是实现此目的的最佳技术。 Nutch分批处理，这意味着先生成链接，然后将其提取，然后对其进行解析，但这一次不会发生。 另一方面，Storm搜寻器基于Apache Storm，这是一个免费的开源分布式实时计算系统。

Storm Crawler目前确实支持索引到Elasticsearch 1.7.2（对版本2的支持正在https://github.com/DigitalPebble/storm-crawler/tree/es2/external/elasticsearch的方式），不支持索引目前，HBase已存在，并且您无法使用hadoop设置，因为它基于Apache Storm。尽管如此，Storm Crawler是“用于构建低延迟，可伸缩的Web爬网程序的资源集合”，因此您可以将自己的索引器螺栓写到HBase中，这应该不太难，并且可以重复使用所提供的其余资源，包括实时爬网您需要的。

@ jorge-luis已经回答了有关ElasticSearch 2的问题。有一个请求请求，我们正在测试中。 至于Hadoop，StormCrawler并不是基于Hadoop，而是基于Apache Storm-因此得名。 最后，当前没有用于HBase的资源，但是可以添加它。 您想将其用于什么？ 我认为文档将使用ES进行索引。 您是否要在其中保留有关URLS的信息（例如Nutch中的crawldb）？ 如果是这样，那么您还可以使用ES来存储状态，请查看StormCrawler中的ES模块以进行说明。

配置Apache Nutch搜寻器时发生错误

[英]Errors when configuring Apache Nutch crawler

apache nutch crawler-只检索单个网址

[英]apache nutch crawler - keeps retrieve only single url

如何在Apache Nut Crawler中恢复先前的不完整作业

[英]How to resume a previous incomplete job in apache nutch crawler

如何增加Apache Nutch爬虫获取的文档数量

[英]How to increase number of documents fetched by Apache Nutch crawler

需要一个没有Hadoop的开源爬虫，例如Apache Nutch

[英]Need an open source crawler like Apache Nutch without Hadoop

Apache Nutch Crawler - 仅在现有表中抓取新注入的 URL

[英]Apache Nutch Crawler - Crawl new injected URLs in existing table only

Storm-Crawler 和 Apache Strom 2.xx

[英]Storm-Crawler and Apache Strom 2.x.x

通过修改螺帽使履带更集中

[英]focused crawler by modifying nutch

调试Storm Crawler

[英]Debugging Storm Crawler

使用Storm Crawler进行爬网

[英]Crawling using Storm Crawler

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 配置Apache Nutch搜寻器时发生错误 apache nutch crawler-只检索单个网址如何在Apache Nut Crawler中恢复先前的不完整作业如何增加Apache Nutch爬虫获取的文档数量需要一个没有Hadoop的开源爬虫，例如Apache Nutch Apache Nutch Crawler - 仅在现有表中抓取新注入的 URL Storm-Crawler 和 Apache Strom 2.xx 通过修改螺帽使履带更集中调试Storm Crawler 使用Storm Crawler进行爬网

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM