簡體 English 中英

在hadoop 1.2.1上的nutch 1.9中缺少org.apache.nutch.crawl.Crawl

[英]org.apache.nutch.crawl.Crawl missing in nutch 1.9 on hadoop 1.2.1

原文 2014-09-08 14:06:05 2 1 hadoop/ nutch

我已經安裝了完全分布式的Hadoop 1.2.1。 我試圖通過以下步驟整合nutch：

下載apache-nutch-1.9-src.zip
將值http.agent.name添加到nutch-site.xml中
將hadoop-env.sh ， core-site.xml ， hdfs-site.xml ， mapred-site.xml ， masters ， slaves復制到$ NUTCH_HOME / conf
使用ant runtime編譯
創建urls/seed.txt並加上hadoop dfs
編輯$ NUTCH_HOME / conf / regex-urlfilter.txt

使用命令測試爬網：

bin/hadoop -jar nutch-1.9.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5

並得到此錯誤：

線程“main”中的異常java.lang.ClassNotFoundException： org.apache.nutch.crawl.Crawl at java.net.URLClassLoader $ 1.run（URLClassLoader.java:366）at java.net.URLClassLoader $ 1.run（URLClassLoader.java）：355）java.security.AccessController.doPrivileged（Native Method），位於java.lang的java.lang.ClassLoader.loadClass（ClassLoader.java:425）的java.net.URLClassLoader.findClass（URLClassLoader.java:354）。位於org.apache.hadoop.util.RunJar.main的java.lang.Class.forName（Class.java:270）的java.lang.Class.forName0（Native Method）中的ClassLoader.loadClass（ClassLoader.java:358） RunJar.java:153）

我試過提取nutch-1.9.job，我沒有在org / apache / nutch / crawl中找到類Crawl。

我需要配置一些東西嗎？

1 個解決方案

Crawl.java在1.8版本中刪除。 您可以使用爬網shell腳本進行所有爬網。

不推薦使用的類oancrawl.Crawler仍在代碼庫中https://issues.apache.org/jira/browse/NUTCH-1621

Apache Nutch 1.9在Hadoop 1.2.1上沒有jar文件中的Crawl類

[英]Apache Nutch 1.9 on Hadoop 1.2.1 no Crawl class in jar file

Apache Nutch重新啟動爬網

[英]Apache Nutch restart crawl

如何使用Apache Nutch抓取.pdf鏈接

[英]How to Crawl .pdf links using Apache Nutch

可以找到或加載主類org.apache.nutch.crawl.InjectorJob

[英]could to find or load main class org.apache.nutch.crawl.InjectorJob

如何限制Apache Nutch 2.3.1爬網內容而不是側邊欄

[英]How to restrict Apache Nutch 2.3.1 to crawl story content and not side bars

分布式模式下的Apache小問題不會從Web爬網

[英]Apache nutch in distributed mode not going to crawl from web

Nutch MalformedURLException導致爬網過程終止

[英]Nutch MalformedURLException causing the crawl process termination

Windows上的Nutch：ERROR crawl.Injector

[英]Nutch on windows: ERROR crawl.Injector

Nutch並將爬網數據保存到Amazon S3

[英]Nutch and save crawl data to Amazon S3

如何在摘要爬網中包括以前排除的URL

[英]How to include previously excluded URLS in a nutch crawl

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Apache Nutch 1.9在Hadoop 1.2.1上沒有jar文件中的Crawl類 Apache Nutch重新啟動爬網如何使用Apache Nutch抓取.pdf鏈接可以找到或加載主類org.apache.nutch.crawl.InjectorJob 如何限制Apache Nutch 2.3.1爬網內容而不是側邊欄分布式模式下的Apache小問題不會從Web爬網 Nutch MalformedURLException導致爬網過程終止 Windows上的Nutch：ERROR crawl.Injector Nutch並將爬網數據保存到Amazon S3 如何在摘要爬網中包括以前排除的URL

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM