簡體 English 中英

風暴搜尋器-技術堆棧和Apache Nutch

[英]storm crawler - Technology stack and Apache Nutch

原文 2016-04-06 04:20:07 8 2 web-crawler/ apache-storm/ nutch/ stormcrawler

我想實時抓取特定的論壇，如果不是Hbase，則將數據轉儲到HDFS中。

我聽說Apache Nutch可以解決這個問題，但遺憾的是它需要的技術堆棧已經很老了。 我不想將hadoop從2.6降級到早期版本，而Elasticsearch降級到1.7 / 1.4，因此我將重點轉移到了Storm Crawler上。

由於我使用的是Hadoop 2.6，Elasticsearch 2.0和Hbase 1.1.3，有人可以告訴我是否可以將Storm Crawler 0.9與它們一起使用？

2 個解決方案

由於您有特殊要求以近乎實時的方式爬網論壇，因此Nutch並不是實現此目的的最佳技術。 Nutch分批處理，這意味着先生成鏈接，然后將其提取，然后對其進行解析，但這一次不會發生。 另一方面，Storm搜尋器基於Apache Storm，這是一個免費的開源分布式實時計算系統。

Storm Crawler目前確實支持索引到Elasticsearch 1.7.2（對版本2的支持正在https://github.com/DigitalPebble/storm-crawler/tree/es2/external/elasticsearch的方式），不支持索引目前，HBase已存在，並且您無法使用hadoop設置，因為它基於Apache Storm。盡管如此，Storm Crawler是“用於構建低延遲，可伸縮的Web爬網程序的資源集合”，因此您可以將自己的索引器螺栓寫到HBase中，這應該不太難，並且可以重復使用所提供的其余資源，包括實時爬網您需要的。

@ jorge-luis已經回答了有關ElasticSearch 2的問題。有一個請求請求，我們正在測試中。 至於Hadoop，StormCrawler並不是基於Hadoop，而是基於Apache Storm-因此得名。 最后，當前沒有用於HBase的資源，但是可以添加它。 您想將其用於什么？ 我認為文檔將使用ES進行索引。 您是否要在其中保留有關URLS的信息（例如Nutch中的crawldb）？ 如果是這樣，那么您還可以使用ES來存儲狀態，請查看StormCrawler中的ES模塊以進行說明。

配置Apache Nutch搜尋器時發生錯誤

[英]Errors when configuring Apache Nutch crawler

apache nutch crawler-只檢索單個網址

[英]apache nutch crawler - keeps retrieve only single url

如何在Apache Nut Crawler中恢復先前的不完整作業

[英]How to resume a previous incomplete job in apache nutch crawler

如何增加Apache Nutch爬蟲獲取的文檔數量

[英]How to increase number of documents fetched by Apache Nutch crawler

需要一個沒有Hadoop的開源爬蟲，例如Apache Nutch

[英]Need an open source crawler like Apache Nutch without Hadoop

Apache Nutch Crawler - 僅在現有表中抓取新注入的 URL

[英]Apache Nutch Crawler - Crawl new injected URLs in existing table only

Storm-Crawler 和 Apache Strom 2.xx

[英]Storm-Crawler and Apache Strom 2.x.x

通過修改螺帽使履帶更集中

[英]focused crawler by modifying nutch

調試Storm Crawler

[英]Debugging Storm Crawler

使用Storm Crawler進行爬網

[英]Crawling using Storm Crawler

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 配置Apache Nutch搜尋器時發生錯誤 apache nutch crawler-只檢索單個網址如何在Apache Nut Crawler中恢復先前的不完整作業如何增加Apache Nutch爬蟲獲取的文檔數量需要一個沒有Hadoop的開源爬蟲，例如Apache Nutch Apache Nutch Crawler - 僅在現有表中抓取新注入的 URL Storm-Crawler 和 Apache Strom 2.xx 通過修改螺帽使履帶更集中調試Storm Crawler 使用Storm Crawler進行爬網

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM