簡體   English   中英

在hadoop 1.2.1上的nutch 1.9中缺少org.apache.nutch.crawl.Crawl

[英]org.apache.nutch.crawl.Crawl missing in nutch 1.9 on hadoop 1.2.1

我已經安裝了完全分布式的Hadoop 1.2.1。 我試圖通過以下步驟整合nutch:

  1. 下載apache-nutch-1.9-src.zip
  2. 將值http.agent.name添加到nutch-site.xml中
  3. hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlmastersslaves復制到$ NUTCH_HOME / conf
  4. 使用ant runtime編譯
  5. 創建urls/seed.txt並加上hadoop dfs
  6. 編輯$ NUTCH_HOME / conf / regex-urlfilter.txt

使用命令測試爬網:

bin/hadoop -jar nutch-1.9.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5

並得到此錯誤:

線程“main”中的異常java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl at java.net.URLClassLoader $ 1.run(URLClassLoader.java:366)at java.net.URLClassLoader $ 1.run(URLClassLoader.java) :355)java.security.AccessController.doPrivileged(Native Method),位於java.lang的java.lang.ClassLoader.loadClass(ClassLoader.java:425)的java.net.URLClassLoader.findClass(URLClassLoader.java:354)。位於org.apache.hadoop.util.RunJar.main的java.lang.Class.forName(Class.java:270)的java.lang.Class.forName0(Native Method)中的ClassLoader.loadClass(ClassLoader.java:358) RunJar.java:153)

我試過提取nutch-1.9.job,我沒有在org / apache / nutch / crawl中找到類Crawl。

我需要配置一些東西嗎?

Crawl.java在1.8版本中刪除。 您可以使用爬網shell腳本進行所有爬網。

不推薦使用的類oancrawl.Crawler仍在代碼庫中https://issues.apache.org/jira/browse/NUTCH-1621

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM