簡體   English   中英

Nutch 1.11抓取問題

[英]Nutch 1.11 crawl Issue

我已按照本教程進行了操作,並配置了Nuct以便使用Cygwin在Windows 7上運行,並且我正在使用Solr 5.4.0索引數據

但是在執行抓取時,nutst 1.11存在問題。

抓取命令 $ bin / crawl -i -D solr.server.url = http://127.0.0.1:8983/solr / urls / TestCrawl 2

錯誤/異常

注入種子URL /apache-nutch-1.11/bin/nutch注入/ TestCrawl / crawldb / urls注入器:從2016-01-19 17:11:06注入器:crawlDb:/ TestCrawl / crawldb注入器:urlDir:/ urls注入器:將注入的URL轉換為爬網數據庫條目。 注入器:org.apache.hadoop.util處java.lang.ProcessBuilder.start(ProcessBuilder.java:1012)處的java.lang.NullPointerException org.apache.hadoop.util處的Shell.runCommand(Shell.java:445)。 Shell.run(Shell.java:418)在org.apache.hadoop.util.Shell $ ShellCommandExecutor.execute(Shell.java:650)在org.apache.hadoop.util.Shell.execCommand(Shell.java:739)在org.apache.hadoop.fs.RawLocalFileSystem.mkdirs上的org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:633)上的org.apache.hadoop.util.Shell.execCommand(Shell.java:722) (RawLocalFileSystem.java:java:421)位於org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:281)位於org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:125)位於org.apache。在org.apache.hadoop.mapreduce.Job $ 10.run(Job.java:1285)上的hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:348)在org.apache.hadoop.mapreduce.Job $ 10.run(Job。 java:1282)at java.security.AccessController.doPrivileged(本機方法 d)位於org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548)處的javax.security.auth.Subject.doAs(Subject.java:422)處org.apache.hadoop.mapreduce.Job.submit (Job.java:1282)在org.apache.hadoop.mapred.JobClient $ 1.run(JobClient.java:562)在org.apache.hadoop.mapred.JobClient $ 1.run(JobClient.java:557)在java。 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548)處的javax.security.auth.Subject.doAs(Subject.java:422)處的security.AccessController.doPrivileged(本機方法)。 org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:548)上的hadoop.mapred.JobClient.submitJobInternal(JobClient.java:557)在org.apache.hadoop.mapred.JobClient.runJob(JobClient.java: 833)在org.apache.nutch.crawl.Injector.run(Injector.java:379)在org.apache.nutch.crawl.Injector.run(Injector.java:379)在org.apache.hadoop.util.ToolRunner .org(ToolRunner.java:70)在org.apache.nutch.crawl.Injector.main(Injector.java:369)

Error running:
/home/apache-nutch-1.11/bin/nutch inject /TestCrawl/crawldb /urls
Failed with exit value 127.

我可以看到您的命令存在多個問題,請嘗試以下操作:

bin/crawl -i -Dsolr.server.url=http://127.0.0.1:8983/solr/core_name path_to_seed crawl 2

第一個問題是傳遞solr參數時會有一個空格。 第二個問題是Solr網址也應包含核心名稱。

使用nutch時需要hadoop-core jar文件

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM