![](/img/trans.png)
[英]Why does my Apache Nutch warc and commoncrawldump fail after crawl?
[英]Apache nutch in distributed mode not going to crawl from web
我正在使用Apache Nuch 2.3,Hadoop 1.2.1(3個DataNodes),HBase 0.94,Solr 4.8。 為了運行apache,堅果是分布式模式。 我做了下面的步驟
其中,hbase_table是nutch將在其中存儲數據的hbase表的名稱。 命令啟動后,將為每個phbase啟動Mapreduce作業,即注入,生成,fetech,dedup,sorlrindex。 所有這些mapreduce作業均完成,沒有任何錯誤。 但是當我從HDFS檢查時,hbase_table中沒有數據。 配置問題在哪里。 不幸的是,分布式模式下的Apache胡言亂語指南並不完全可用(根據我的搜索)
我也遇到同樣的問題,但是軟件版本較新。 看到這篇文章Nutch Solr數據導入處理程序?
作為一種解決方法,您可以通過打開hbase shell並運行以下命令來計數hbase中的記錄
> list (this will make sure the table is getting created.)
> count 'hbase_table' (this will give you records in it.)
或者,而不是然后批量運行所有命令,請嘗試分別運行它們。
否則,您可以粘貼日志文件。
在apache nutch的分布式模式下,您必須檢查tasktracker的日志。 爬網文檔的詳細信息應在此處,而不應在mapreduce日志中。 其網址將類似於(如果您使用的是默認配置)
http://data-node-ip:50060/logs/hadoop-{user-name}-tasktracker-{machine-name}.log
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.