分布式模式下的Apache小問題不會從Web爬網

Question

我正在使用Apache Nuch 2.3，Hadoop 1.2.1（3個DataNodes），HBase 0.94，Solr 4.8。 為了運行apache，堅果是分布式模式。 我做了下面的步驟

轉到運行時/部署目錄
復制apache-nutch-2.3.jar到部署目錄
運行此命令runtime / deploy / bin / crawl urls / hbase_table http：// solrHost：8983 / solr 1

其中，hbase_table是nutch將在其中存儲數據的hbase表的名稱。 命令啟動后，將為每個phbase啟動Mapreduce作業，即注入，生成，fetech，dedup，sorlrindex。 所有這些mapreduce作業均完成，沒有任何錯誤。 但是當我從HDFS檢查時，hbase_table中沒有數據。 配置問題在哪里。 不幸的是，分布式模式下的Apache胡言亂語指南並不完全可用（根據我的搜索）

Answer 1

我也遇到同樣的問題，但是軟件版本較新。 看到這篇文章Nutch Solr數據導入處理程序？

作為一種解決方法，您可以通過打開hbase shell並運行以下命令來計數hbase中的記錄

> list (this will make sure the table is getting created.)
> count 'hbase_table' (this will give you records in it.)

或者，而不是然后批量運行所有命令，請嘗試分別運行它們。
否則，您可以粘貼日志文件。

Answer 2

在apache nutch的分布式模式下，您必須檢查tasktracker的日志。 爬網文檔的詳細信息應在此處，而不應在mapreduce日志中。 其網址將類似於（如果您使用的是默認配置）

http://data-node-ip:50060/logs/hadoop-{user-name}-tasktracker-{machine-name}.log

分布式模式下的Apache小問題不會從Web爬網

問題描述

2 個解決方案

解決方案1
0 2015-12-22 10:09:50

解決方案2
0 已采納 2015-12-31 06:14:19

分布式模式下的Apache小問題不會從Web爬網

問題描述

2 個解決方案

解決方案1 0 2015-12-22 10:09:50

解決方案2 0 已采納 2015-12-31 06:14:19

解決方案1
0 2015-12-22 10:09:50

解決方案2
0 已采納 2015-12-31 06:14:19