簡體   English   中英

Nutch在Hadoop 2.x中

[英]Nutch in Hadoop 2.x

我有一個運行Hadoop 2.2.0和HBase 0.98.1的三節點集群,我需要在其上使用Nutch 2.2.1爬蟲。 但它只支持1.x分支的Hadoop版本。 到現在為止,我可以向我的集群提交一個Nutch作業,但它失敗了java.lang.NumberFormatException。 所以我的問題很簡單:如何讓Nutch在我的環境中工作?

目前,將Nutch 2.2.1(Gora 0.3)與HBase 0.98.x集成是不可能的。 請參閱: https//issues.apache.org/jira/browse/GORA-304

官方Nutch教程僅推薦0.90.x HBase分支: http ://wiki.apache.org/nutch/Nutch2Tutorial

您也可以下載我今天創建和測試的HBase 0.94.24-hadoop-2.5.0版本: https//github.com/dobromyslov/hbase/releases/tag/0.94.24-hadoop-2.5.0

請注意,Nutch 2.2.1不支持HBase 0.94.x,你必須從Git分支獲得最新的Nutch 2.x: https//github.com/apache/nutch/tree/2.x

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM