Nutch 1.11抓取問題

Question

我已按照本教程進行了操作，並配置了Nuct以便使用Cygwin在Windows 7上運行，並且我正在使用Solr 5.4.0索引數據

但是在執行抓取時，nutst 1.11存在問題。

抓取命令 $ bin / crawl -i -D solr.server.url = http://127.0.0.1:8983/solr / urls / TestCrawl 2

錯誤/異常

注入種子URL /apache-nutch-1.11/bin/nutch注入/ TestCrawl / crawldb / urls注入器：從2016-01-19 17:11:06注入器：crawlDb：/ TestCrawl / crawldb注入器：urlDir：/ urls注入器：將注入的URL轉換為爬網數據庫條目。注入器：org.apache.hadoop.util處java.lang.ProcessBuilder.start（ProcessBuilder.java:1012）處的java.lang.NullPointerException org.apache.hadoop.util處的Shell.runCommand（Shell.java:445）。 Shell.run（Shell.java:418）在org.apache.hadoop.util.Shell $ ShellCommandExecutor.execute（Shell.java:650）在org.apache.hadoop.util.Shell.execCommand（Shell.java:739）在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs上的org.apache.hadoop.fs.RawLocalFileSystem.setPermission（RawLocalFileSystem.java:633）上的org.apache.hadoop.util.Shell.execCommand（Shell.java:722）（RawLocalFileSystem.java:java:421）位於org.apache.hadoop.fs.FilterFileSystem.mkdirs（FilterFileSystem.java:281）位於org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir（JobSubmissionFiles.java:125）位於org.apache。在org.apache.hadoop.mapreduce.Job $ 10.run（Job.java:1285）上的hadoop.mapreduce.JobSubmitter.submitJobInternal（JobSubmitter.java:348）在org.apache.hadoop.mapreduce.Job $ 10.run（Job。 java：1282）at java.security.AccessController.doPrivileged（本機方法 d）位於org.apache.hadoop.security.UserGroupInformation.doAs（UserGroupInformation.java:1548）處的javax.security.auth.Subject.doAs（Subject.java:422）處org.apache.hadoop.mapreduce.Job.submit （Job.java:1282）在org.apache.hadoop.mapred.JobClient $ 1.run（JobClient.java:562）在org.apache.hadoop.mapred.JobClient $ 1.run（JobClient.java:557）在java。 org.apache.hadoop.security.UserGroupInformation.doAs（UserGroupInformation.java:1548）處的javax.security.auth.Subject.doAs（Subject.java:422）處的security.AccessController.doPrivileged（本機方法）。 org.apache.hadoop.mapred.JobClient.submitJob（JobClient.java:548）上的hadoop.mapred.JobClient.submitJobInternal（JobClient.java:557）在org.apache.hadoop.mapred.JobClient.runJob（JobClient.java： 833）在org.apache.nutch.crawl.Injector.run（Injector.java:379）在org.apache.nutch.crawl.Injector.run（Injector.java:379）在org.apache.hadoop.util.ToolRunner .org（ToolRunner.java:70）在org.apache.nutch.crawl.Injector.main（Injector.java:369）

Error running:
/home/apache-nutch-1.11/bin/nutch inject /TestCrawl/crawldb /urls
Failed with exit value 127.

Answer 1

我可以看到您的命令存在多個問題，請嘗試以下操作：

bin/crawl -i -Dsolr.server.url=http://127.0.0.1:8983/solr/core_name path_to_seed crawl 2

第一個問題是傳遞solr參數時會有一個空格。 第二個問題是Solr網址也應包含核心名稱。

Answer 2

使用nutch時需要hadoop-core jar文件

與1.11兼容的hadoop-core jar為0.20.0
請從此鏈接下載jar： http : //www.java2s.com/Code/Jar/h/Downloadhadoop0200corejar.htm
將該罐子粘貼到"C:\\cygwin64\\home\\apache-nutch-1.11\\lib"文件夾中，它將成功運行。

Nutch 1.11抓取問題

問題描述

2 個解決方案

解決方案1
1 2016-01-20 06:34:57

解決方案2
0 2016-04-14 07:03:40

Nutch 1.11抓取問題

問題描述

2 個解決方案

解決方案1 1 2016-01-20 06:34:57

解決方案2 0 2016-04-14 07:03:40

解決方案1
1 2016-01-20 06:34:57

解決方案2
0 2016-04-14 07:03:40