簡體   English   中英

分布式模式下的Apache小問題不會從Web爬網

[英]Apache nutch in distributed mode not going to crawl from web

我正在使用Apache Nuch 2.3,Hadoop 1.2.1(3個DataNodes),HBase 0.94,Solr 4.8。 為了運行apache,堅果是分布式模式。 我做了下面的步驟

  1. 轉到運行時/部署目錄
  2. 復制apache-nutch-2.3.jar到部署目錄
  3. 運行此命令runtime / deploy / bin / crawl urls / hbase_table http:// solrHost:8983 / solr 1

其中,hbase_table是nutch將在其中存儲數據的hbase表的名稱。 命令啟動后,將為每個phbase啟動Mapreduce作業,即注入,生成,fetech,dedup,sorlrindex。 所有這些mapreduce作業均完成,沒有任何錯誤。 但是當我從HDFS檢查時,hbase_table中沒有數據。 配置問題在哪里。 不幸的是,分布式模式下的Apache胡言亂語指南並不完全可用(根據我的搜索)

我也遇到同樣的問題,但是軟件版本較新。 看到這篇文章Nutch Solr數據導入處理程序?

作為一種解決方法,您可以通過打開hbase shell並運行以下命令來計數hbase中的記錄

> list (this will make sure the table is getting created.)
> count 'hbase_table' (this will give you records in it.)

或者,而不是然后批量運行所有命令,請嘗試分別運行它們。
否則,您可以粘貼日志文件。

在apache nutch的分布式模式下,您必須檢查tasktracker的日志。 爬網文檔的詳細信息應在此處,而不應在mapreduce日志中。 其網址將類似於(如果您使用的是默認配置)

http://data-node-ip:50060/logs/hadoop-{user-name}-tasktracker-{machine-name}.log

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM