簡體   English   中英

Apache Nutch Hadoop 集成

[英]Apache Nutch Hadoop Integration

我根據提供的鏈接將 apache-nutch-1.15 和 hadoop 配置為在部署模式下運行https://wiki.apache.org/nutch/NutchHadoopTutorial

但是當我嘗試運行以下命令時

hadoop jar apache-nutch-${version}.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5

我得到以下異常

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:214)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

類 org.apache.nutch.crawl.Crawl 在 nutch v1.15 中不存在,但在 nutch v1.17 中存在。

請在這件事上給予我幫助

apache nutch 抓取到 hdfs 的文檔自 2014 年以來沒有更新。新版本的 apache nutch 沒有任何名為 org.apache.nutch.crawl.Crawl 的類。

要運行 apache nutch,請遵循與抓取到本地文件系統相關的文檔 ( https://wiki.apache.org/nutch/NutchTutorial )。 在鏈接中選擇“選項 2:從源代碼分發版設置 Nutch”,然后您將在運行時目錄中有一個部署文件夾(部署模式用於將數據轉儲到 hadoop)

轉到部署文件夾並通過將所有本地路徑替換為 hdfs 路徑來執行上述鏈接中針對本地模式提到的相同命令

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM