簡體   English   中英

風暴搜尋器-技術堆棧和Apache Nutch

[英]storm crawler - Technology stack and Apache Nutch

我想實時抓取特定的論壇,如果不是Hbase,則將數據轉儲到HDFS中。

我聽說Apache Nutch可以解決這個問題,但遺憾的是它需要的技術堆棧已經很老了。 我不想將hadoop從2.6降級到早期版本,而Elasticsearch降級到1.7 / 1.4,因此我將重點轉移到了Storm Crawler上。

由於我使用的是Hadoop 2.6,Elasticsearch 2.0和Hbase 1.1.3,有人可以告訴我是否可以將Storm Crawler 0.9與它們一起使用?

由於您有特殊要求以近乎實時的方式爬網論壇,因此Nutch並不是實現此目的的最佳技術。 Nutch分批處理,這意味着先生成鏈接,然后將其提取,然后對其進行解析,但這一次不會發生。 另一方面,Storm搜尋器基於Apache Storm,這是一個免費的開源分布式實時計算系統。

Storm Crawler目前確實支持索引到Elasticsearch 1.7.2(對版本2的支持正在https://github.com/DigitalPebble/storm-crawler/tree/es2/external/elasticsearch的方式),不支持索引目前,HBase已存在,並且您無法使用hadoop設置,因為它基於Apache Storm。 盡管如此,Storm Crawler是“用於構建低延遲,可伸縮的Web爬網程序的資源集合”,因此您可以將自己的索引器螺栓寫到HBase中,這應該不太難,並且可以重復使用所提供的其余資源,包括實時爬網您需要的。

@ jorge-luis已經回答了有關ElasticSearch 2的問題。有一個請求請求 ,我們正在測試中。 至於Hadoop,StormCrawler並不是基於Hadoop,而是基於Apache Storm-因此得名。 最后,當前沒有用於HBase的資源,但是可以添加它。 您想將其用於什么? 我認為文檔將使用ES進行索引。 您是否要在其中保留有關URLS的信息(例如Nutch中的crawldb)? 如果是這樣,那么您還可以使用ES來存儲狀態,請查看StormCrawler中的ES模塊以進行說明。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM